Hadoop-HDFSの概要

Hadoop File Systemは、分散ファイルシステム設計を使用して開発されました。市販のハードウェアで実行されます。他の分散システムとは異なり、HDFSは耐障害性が高く、低コストのハードウェアを使用して設計されています。

HDFSは非常に大量のデータを保持し、アクセスを容易にします。このような巨大なデータを保存するために、ファイルは複数のマシンに保存されます。これらのファイルは、障害が発生した場合にデータが失われる可能性からシステムを保護するために、冗長形式で保存されます。 HDFSは、アプリケーションを並列処理で利用できるようにします。

HDFSの機能

分散ストレージおよび処理に適しています。
Hadoopは、HDFSと対話するためのコマンドインターフェイスを提供します。
namenodeおよびdatanodeの組み込みサーバーは、ユーザーがクラスターのステータスを簡単に確認するのに役立ちます。
ファイルシステムデータへのストリーミングアクセス。
HDFSは、ファイルのアクセス許可と認証を提供します。

HDFSアーキテクチャ

以下に、Hadoopファイルシステムのアーキテクチャを示します。

HDFSアーキテクチャ

HDFSはマスタースレーブアーキテクチャに従っており、次の要素があります。

Namenode

namenodeは、GNU/Linuxオペレーティングシステムとnamenodeソフトウェアを含む市販のハードウェアです。市販のハードウェアで実行できるソフトウェアです。 namenodeを持つシステムはマスターサーバーとして機能し、次のタスクを行います-

ファイルシステムの名前空間を管理します。
クライアントのファイルへのアクセスを規制します。
また、ファイルやディレクトリの名前変更、クローズ、オープンなどのファイルシステム操作を実行します。

データノード

データノードは、GNU/Linuxオペレーティングシステムとデータノードソフトウェアを備えた汎用ハードウェアです。クラスター内のすべてのノード（商品ハードウェア/システム）には、データノードがあります。これらのノードは、システムのデータストレージを管理します。

データノードは、クライアントの要求に従って、ファイルシステム上で読み取り/書き込み操作を実行します。
また、namenodeの指示に従って、ブロックの作成、削除、複製などの操作を実行します。

ブロック

通常、ユーザーデータはHDFSのファイルに保存されます。ファイルシステム内のファイルは、1つ以上のセグメントに分割され、個々のデータノードに格納されます。これらのファイルセグメントはブロックと呼ばれます。つまり、HDFSが読み取りまたは書き込みできるデータの最小量は、ブロックと呼ばれます。デフォルトのブロックサイズは64MBですが、HDFS構成を変更する必要に応じて増やすことができます。

HDFSの目標

障害の検出と回復-HDFSには多数の汎用ハードウェアが含まれているため、コンポーネントの障害は頻繁に発生します。したがって、HDFSには、迅速かつ自動的な障害検出と回復のメカニズムが必要です。

巨大なデータセット-HDFSには、巨大なデータセットを持つアプリケーションを管理するために、クラスターごとに数百のノードが必要です。

データのハードウェア-計算がデータの近くで行われると、要求されたタスクを効率的に実行できます。特に巨大なデータセットが関係する場合、ネットワークトラフィックを削減し、スループットを向上させます。

Hadoop-hdfs-overview

目次

Hadoop-HDFSの概要

HDFSの機能

HDFSアーキテクチャ

Namenode

データノード

ブロック

HDFSの目標