Hadoop-multi-node-cluster
Hadoop-マルチノードクラスター
この章では、分散環境でのHadoop Multi-Nodeクラスターのセットアップについて説明します。
クラスター全体を実証できないため、3つのシステム(1つのマスターと2つのスレーブ)を使用してHadoopクラスター環境を説明しています。以下に示すのはIPアドレスです。
- Hadoopマスター:192.168.1.15(hadoop-master)
- Hadoopスレーブ:192.168.1.16(hadoop-slave-1)
- Hadoopスレーブ:192.168.1.17(hadoop-slave-2)
以下の手順に従って、Hadoop Multi-Nodeクラスターをセットアップします。
Javaのインストール
JavaはHadoopの主要な前提条件です。 まず、「java -version」を使用して、システムにjavaが存在することを確認する必要があります。 java versionコマンドの構文は次のとおりです。
すべてが正常に機能する場合、次の出力が得られます。
システムにjavaがインストールされていない場合は、指定された手順に従ってjavaをインストールします。
ステップ1
次のリンクhttps://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260l[www.oracle.com]にアクセスして、java(JDK <最新バージョン>-X64.tar.gz)をダウンロード
その後、 jdk-7u71-linux-x64.tar.gz がシステムにダウンロードされます。
ステップ2
通常、ダウンロードしたjavaファイルは、ダウンロードフォルダーにあります。 それを確認し、次のコマンドを使用して jdk-7u71-linux-x64.gz ファイルを抽出します。
ステップ3
すべてのユーザーがJavaを使用できるようにするには、「/usr/local/」の場所に移動する必要があります。 ルートを開き、次のコマンドを入力します。
ステップ4
次に、上記で説明したように、ターミナルから java -version コマンドを確認します。 上記のプロセスに従って、すべてのクラスターノードにjavaをインストールします。
ユーザーアカウントの作成
Hadoopインストールを使用するには、マスターシステムとスレーブシステムの両方でシステムユーザーアカウントを作成します。
ノードのマッピング
すべてのノードの /etc/ フォルダーにある hosts ファイルを編集し、各システムのIPアドレスとホスト名を指定する必要があります。
キーベースのログインの構成
パスワードを要求せずに相互に通信できるように、すべてのノードでsshをセットアップします。
Hadoopのインストール
マスターサーバーで、次のコマンドを使用してHadoopをダウンロードしてインストールします。
Hadoopの構成
以下のように以下の変更を行って、Hadoopサーバーを構成する必要があります。
core-site.xml
hdfs-site.xml
mapred-site.xml
hadoop-env.sh
注-システム構成に従ってJAVA_HOMEを設定します。
スレーブサーバーへのHadoopのインストール
指定されたコマンドに従って、すべてのスレーブサーバーにHadoopをインストールします。
マスターサーバーでのHadoopの構成
マスターサーバーを開き、指定されたコマンドに従って構成します。
マスターノードの構成
スレーブノードの構成
Hadoopマスターのフォーマット名ノード
Hadoopサービスの開始
次のコマンドは、HadoopマスターですべてのHadoopサービスを開始します。
Hadoopクラスターに新しいDataNodeを追加する
以下に、Hadoopクラスターに新しいノードを追加するために従うべき手順を示します。
ネットワーキング
適切なネットワーク構成を使用して、既存のHadoopクラスターに新しいノードを追加します。 次のネットワーク構成を想定します。
新しいノード構成の場合-
ユーザーとSSHアクセスの追加
ユーザーを追加する
次のコマンドを使用して、新しいノードで「hadoop」ユーザーを追加し、Hadoopユーザーのパスワードを「hadoop123」または必要なものに設定します。
マスターから新しいスレーブへのセットアップパスワードレス接続。
マスターで次を実行します
スレーブで次を実行します
hadoopにログインします。 そうでない場合は、hadoopユーザーにログインします。
公開キーの内容をファイル "$ HOME/.ssh/authorized_keys" にコピーしてから、次のコマンドを実行して、同じアクセス許可を変更します。
マスターマシンからsshログインを確認します。 ここで、マスターからのパスワードなしで新しいノードにsshできるかどうかを確認します。
新しいノードのホスト名を設定
ファイル /etc/sysconfig/network でホスト名を設定できます
変更を有効にするには、マシンを再起動するか、それぞれのホスト名で新しいマシンに対してhostnameコマンドを実行します(再起動は適切なオプションです)。
slave3ノードマシン上-
ホスト名slave3.in
次の行を使用して、クラスターのすべてのマシンで /etc/hosts を更新します-
ここで、ホスト名を使用してマシンをpingして、IPに解決されているかどうかを確認してください。
新しいノードマシンで-
新しいノードでDataNodeを開始します
新しいノードにログイン
次のコマンドを使用して、新しく追加されたスレーブノードでHDFSを起動します
新しいノードでjpsコマンドの出力を確認します。 次のようになります。
HadoopクラスターからのDataNodeの削除
データを失うことなく、実行中にクラスターからノードをその場で削除できます。 HDFSは、ノードの削除が安全に実行されることを保証する廃止機能を提供します。 それを使用するには、以下の手順に従ってください-
ステップ1-マスターへのログイン
Hadoopがインストールされているマスターマシンユーザーにログインします。
ステップ2-クラスター構成の変更
除外ファイルは、クラスターを開始する前に構成する必要があります。 dfs.hosts.excludeという名前のキーを $ HADOOP_HOME/etc/hadoop/hdfs-site.xml ファイルに追加します。 このキーに関連付けられた値は、HDFSへの接続が許可されていないマシンのリストを含むNameNodeのローカルファイルシステム上のファイルへのフルパスを提供します。
たとえば、これらの行を etc/hadoop/hdfs-site.xml ファイルに追加します。
ステップ3-廃止するホストを決定する
廃止する各マシンは、hdfs_exclude.txtで識別されるファイルに追加する必要があります(1行に1つのドメイン名)。 これにより、NameNodeに接続できなくなります。 DataNode2を削除する場合、 "/home/hadoop/hadoop-1.2.1/hdfs_exclude.txt" ファイルの内容を以下に示します。
ステップ4-構成の再読み込みを強制する
これにより、新しく更新された「除外」ファイルを含め、NameNodeがその構成を強制的に再読み込みされます。 一定期間にわたってノードを使用停止し、各ノードのブロックがアクティブのままになるようにスケジュールされているマシンに複製される時間を確保します。
ステップ5-ノードのシャットダウン
廃止プロセスが完了したら、廃止されたハードウェアをメンテナンスのために安全にシャットダウンできます。 レポートコマンドをdfsadminに実行して、使用停止のステータスを確認します。 次のコマンドは、廃止ノードとクラスターに接続されたノードのステータスを記述します。
ステップ6-除外ファイルを再度編集する
マシンが廃止されたら、「除外」ファイルから削除できます。 "$ HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes" を再度実行すると、除外ファイルが読み取られてNameNodeに戻されます。メンテナンスが完了した後、またはクラスター内で追加の容量が再び必要になった後などに、DataNodeがクラスターに再参加できるようにします。
特記事項-上記のプロセスに従っても、タスクトラッカープロセスがノードで実行されている場合は、シャットダウンする必要があります。 1つの方法は、上記の手順で行ったようにマシンを切断することです。 マスターはプロセスを自動的に認識し、デッドとして宣言します。 タスクトラッカーを削除するために同じプロセスを実行する必要はありません。これは、DataNodeと比較してそれほど重要ではないためです。 DataNodeには、データを失うことなく安全に削除するデータが含まれています。
tasktrackerは、いつでも次のコマンドでオンザフライで実行/シャットダウンできます。