Hadoop-hdfs-overview

提供:Dev Guides
移動先:案内検索

Hadoop-HDFSの概要

Hadoop File Systemは、分散ファイルシステム設計を使用して開発されました。 市販のハードウェアで実行されます。 他の分散システムとは異なり、HDFSは耐障害性が高く、低コストのハードウェアを使用して設計されています。

HDFSは非常に大量のデータを保持し、アクセスを容易にします。 このような巨大なデータを保存するために、ファイルは複数のマシンに保存されます。 これらのファイルは、障害が発生した場合にデータが失われる可能性からシステムを保護するために、冗長形式で保存されます。 HDFSは、アプリケーションを並列処理で利用できるようにします。

HDFSの機能

  • 分散ストレージおよび処理に適しています。
  • Hadoopは、HDFSと対話するためのコマンドインターフェイスを提供します。
  • namenodeおよびdatanodeの組み込みサーバーは、ユーザーがクラスターのステータスを簡単に確認するのに役立ちます。
  • ファイルシステムデータへのストリーミングアクセス。
  • HDFSは、ファイルのアクセス許可と認証を提供します。

HDFSアーキテクチャ

以下に、Hadoopファイルシステムのアーキテクチャを示します。

HDFSアーキテクチャ

HDFSはマスタースレーブアーキテクチャに従っており、次の要素があります。

Namenode

namenodeは、GNU/Linuxオペレーティングシステムとnamenodeソフトウェアを含む市販のハードウェアです。 市販のハードウェアで実行できるソフトウェアです。 namenodeを持つシステムはマスターサーバーとして機能し、次のタスクを行います-

  • ファイルシステムの名前空間を管理します。
  • クライアントのファイルへのアクセスを規制します。
  • また、ファイルやディレクトリの名前変更、クローズ、オープンなどのファイルシステム操作を実行します。

データノード

データノードは、GNU/Linuxオペレーティングシステムとデータノードソフトウェアを備えた汎用ハードウェアです。 クラスター内のすべてのノード(商品ハードウェア/システム)には、データノードがあります。 これらのノードは、システムのデータストレージを管理します。

  • データノードは、クライアントの要求に従って、ファイルシステム上で読み取り/書き込み操作を実行します。
  • また、namenodeの指示に従って、ブロックの作成、削除、複製などの操作を実行します。

ブロック

通常、ユーザーデータはHDFSのファイルに保存されます。 ファイルシステム内のファイルは、1つ以上のセグメントに分割され、個々のデータノードに格納されます。 これらのファイルセグメントはブロックと呼ばれます。 つまり、HDFSが読み取りまたは書き込みできるデータの最小量は、ブロックと呼ばれます。 デフォルトのブロックサイズは64MBですが、HDFS構成を変更する必要に応じて増やすことができます。

HDFSの目標

障害の検出と回復-HDFSには多数の汎用ハードウェアが含まれているため、コンポーネントの障害は頻繁に発生します。 したがって、HDFSには、迅速かつ自動的な障害検出と回復のメカニズムが必要です。

巨大なデータセット-HDFSには、巨大なデータセットを持つアプリケーションを管理するために、クラスターごとに数百のノードが必要です。

データのハードウェア-計算がデータの近くで行われると、要求されたタスクを効率的に実行できます。 特に巨大なデータセットが関係する場合、ネットワークトラフィックを削減し、スループットを向上させます。