Hadoop-hdfs-overview
Hadoop-HDFSの概要
Hadoop File Systemは、分散ファイルシステム設計を使用して開発されました。 市販のハードウェアで実行されます。 他の分散システムとは異なり、HDFSは耐障害性が高く、低コストのハードウェアを使用して設計されています。
HDFSは非常に大量のデータを保持し、アクセスを容易にします。 このような巨大なデータを保存するために、ファイルは複数のマシンに保存されます。 これらのファイルは、障害が発生した場合にデータが失われる可能性からシステムを保護するために、冗長形式で保存されます。 HDFSは、アプリケーションを並列処理で利用できるようにします。
HDFSの機能
- 分散ストレージおよび処理に適しています。
- Hadoopは、HDFSと対話するためのコマンドインターフェイスを提供します。
- namenodeおよびdatanodeの組み込みサーバーは、ユーザーがクラスターのステータスを簡単に確認するのに役立ちます。
- ファイルシステムデータへのストリーミングアクセス。
- HDFSは、ファイルのアクセス許可と認証を提供します。
HDFSアーキテクチャ
以下に、Hadoopファイルシステムのアーキテクチャを示します。
HDFSはマスタースレーブアーキテクチャに従っており、次の要素があります。
Namenode
namenodeは、GNU/Linuxオペレーティングシステムとnamenodeソフトウェアを含む市販のハードウェアです。 市販のハードウェアで実行できるソフトウェアです。 namenodeを持つシステムはマスターサーバーとして機能し、次のタスクを行います-
- ファイルシステムの名前空間を管理します。
- クライアントのファイルへのアクセスを規制します。
- また、ファイルやディレクトリの名前変更、クローズ、オープンなどのファイルシステム操作を実行します。
データノード
データノードは、GNU/Linuxオペレーティングシステムとデータノードソフトウェアを備えた汎用ハードウェアです。 クラスター内のすべてのノード(商品ハードウェア/システム)には、データノードがあります。 これらのノードは、システムのデータストレージを管理します。
- データノードは、クライアントの要求に従って、ファイルシステム上で読み取り/書き込み操作を実行します。
- また、namenodeの指示に従って、ブロックの作成、削除、複製などの操作を実行します。
ブロック
通常、ユーザーデータはHDFSのファイルに保存されます。 ファイルシステム内のファイルは、1つ以上のセグメントに分割され、個々のデータノードに格納されます。 これらのファイルセグメントはブロックと呼ばれます。 つまり、HDFSが読み取りまたは書き込みできるデータの最小量は、ブロックと呼ばれます。 デフォルトのブロックサイズは64MBですが、HDFS構成を変更する必要に応じて増やすことができます。
HDFSの目標
障害の検出と回復-HDFSには多数の汎用ハードウェアが含まれているため、コンポーネントの障害は頻繁に発生します。 したがって、HDFSには、迅速かつ自動的な障害検出と回復のメカニズムが必要です。
巨大なデータセット-HDFSには、巨大なデータセットを持つアプリケーションを管理するために、クラスターごとに数百のノードが必要です。
データのハードウェア-計算がデータの近くで行われると、要求されたタスクを効率的に実行できます。 特に巨大なデータセットが関係する場合、ネットワークトラフィックを削減し、スループットを向上させます。