Hadoop-マルチノードクラスター

この章では、分散環境でのHadoop Multi-Nodeクラスターのセットアップについて説明します。

クラスター全体を実証できないため、3つのシステム（1つのマスターと2つのスレーブ）を使用してHadoopクラスター環境を説明しています。以下に示すのはIPアドレスです。

Hadoopマスター：192.168.1.15（hadoop-master）
Hadoopスレーブ：192.168.1.16（hadoop-slave-1）
Hadoopスレーブ：192.168.1.17（hadoop-slave-2）

以下の手順に従って、Hadoop Multi-Nodeクラスターをセットアップします。

Javaのインストール

JavaはHadoopの主要な前提条件です。まず、「java -version」を使用して、システムにjavaが存在することを確認する必要があります。 java versionコマンドの構文は次のとおりです。

$ java -version

すべてが正常に機能する場合、次の出力が得られます。

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

システムにjavaがインストールされていない場合は、指定された手順に従ってjavaをインストールします。

ステップ1

次のリンクhttps://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260l[www.oracle.com]にアクセスして、java（JDK <最新バージョン>-X64.tar.gz）をダウンロード

その後、 jdk-7u71-linux-x64.tar.gz がシステムにダウンロードされます。

ステップ2

通常、ダウンロードしたjavaファイルは、ダウンロードフォルダーにあります。それを確認し、次のコマンドを使用して jdk-7u71-linux-x64.gz ファイルを抽出します。

$ cd Downloads/
$ ls
jdk-7u71-Linux-x64.gz

$ tar zxf jdk-7u71-Linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-Linux-x64.gz

ステップ3

すべてのユーザーがJavaを使用できるようにするには、「/usr/local/」の場所に移動する必要があります。ルートを開き、次のコマンドを入力します。

$ su
password:
# mv jdk1.7.0_71/usr/local/
# exit

ステップ4

*PATH* および *JAVA_HOME* 変数を設定するには、*〜/.bashrc *ファイルに次のコマンドを追加します。

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

次に、上記で説明したように、ターミナルから java -version コマンドを確認します。上記のプロセスに従って、すべてのクラスターノードにjavaをインストールします。

ユーザーアカウントの作成

Hadoopインストールを使用するには、マスターシステムとスレーブシステムの両方でシステムユーザーアカウントを作成します。

# useradd hadoop
# passwd hadoop

ノードのマッピング

すべてのノードの /etc/ フォルダーにある hosts ファイルを編集し、各システムのIPアドレスとホスト名を指定する必要があります。

# vi/etc/hosts
enter the following lines in the/etc/hosts file.

192.168.1.109 hadoop-master
192.168.1.145 hadoop-slave-1
192.168.56.1 hadoop-slave-2

キーベースのログインの構成

パスワードを要求せずに相互に通信できるように、すべてのノードでsshをセットアップします。

# su hadoop
$ ssh-keygen -t rsa
$ ssh-copy-id -i ~/.ssh/id_rsa.pub finddevguides@hadoop-master
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp1@hadoop-slave-1
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp2@hadoop-slave-2
$ chmod 0600 ~/.ssh/authorized_keys
$ exit

Hadoopのインストール

マスターサーバーで、次のコマンドを使用してHadoopをダウンロードしてインストールします。

# mkdir/opt/hadoop
# cd/opt/hadoop/
# wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-1.2.0.tar.gz
# tar -xzf hadoop-1.2.0.tar.gz
# mv hadoop-1.2.0 hadoop
# chown -R hadoop/opt/hadoop
# cd/opt/hadoop/hadoop/

Hadoopの構成

以下のように以下の変更を行って、Hadoopサーバーを構成する必要があります。

core-site.xml

*core-site.xml* ファイルを開き、次のように編集します。

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://hadoop-master:9000/</value>
   </property>
   <property>
      <name>dfs.permissions</name>
      <value>false</value>
   </property>
</configuration>

hdfs-site.xml

*hdfs-site.xml* ファイルを開き、以下に示すように編集します。

<configuration>
   <property>
      <name>dfs.data.dir</name>
      <value>/opt/hadoop/hadoop/dfs/name/data</value>
      <final>true</final>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>/opt/hadoop/hadoop/dfs/name</value>
      <final>true</final>
   </property>

   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>

mapred-site.xml

*mapred-site.xml* ファイルを開き、以下に示すように編集します。

<configuration>
   <property>
      <name>mapred.job.tracker</name>
      <value>hadoop-master:9001</value>
   </property>
</configuration>

hadoop-env.sh

*hadoop-env.sh* ファイルを開き、以下に示すようにJAVA_HOME、HADOOP_CONF_DIR、およびHADOOP_OPTSを編集します。

注-システム構成に従ってJAVA_HOMEを設定します。

export JAVA_HOME=/opt/jdk1.7.0_17
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
export HADOOP_CONF_DIR=/opt/hadoop/hadoop/conf

スレーブサーバーへのHadoopのインストール

指定されたコマンドに従って、すべてのスレーブサーバーにHadoopをインストールします。

# su hadoop
$ cd/opt/hadoop
$ scp -r hadoop hadoop-slave-1:/opt/hadoop
$ scp -r hadoop hadoop-slave-2:/opt/hadoop

マスターサーバーでのHadoopの構成

マスターサーバーを開き、指定されたコマンドに従って構成します。

# su hadoop
$ cd/opt/hadoop/hadoop

マスターノードの構成

$ vi etc/hadoop/masters

hadoop-master

スレーブノードの構成

$ vi etc/hadoop/slaves

hadoop-slave-1
hadoop-slave-2

Hadoopマスターのフォーマット名ノード

# su hadoop
$ cd/opt/hadoop/hadoop
$ bin/hadoop namenode –format
11/10/14 10:58:07 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = hadoop-master/192.168.1.109
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 1.2.0
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.2 -r 1479473;
compiled by 'hortonfo' on Mon May 6 06:59:37 UTC 2013
STARTUP_MSG: java = 1.7.0_71

************************************************************/
11/10/14 10:58:08 INFO util.GSet: Computing capacity for map BlocksMap
editlog=/opt/hadoop/hadoop/dfs/name/current/edits
………………………………………………….
………………………………………………….
………………………………………………….
11/10/14 10:58:08 INFO common.Storage: Storage directory
/opt/hadoop/hadoop/dfs/name has been successfully formatted.
11/10/14 10:58:08 INFO namenode.NameNode:
SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop-master/192.168.1.15
************************************************************/

Hadoopサービスの開始

次のコマンドは、HadoopマスターですべてのHadoopサービスを開始します。

$ cd $HADOOP_HOME/sbin
$ start-all.sh

Hadoopクラスターに新しいDataNodeを追加する

以下に、Hadoopクラスターに新しいノードを追加するために従うべき手順を示します。

ネットワーキング

適切なネットワーク構成を使用して、既存のHadoopクラスターに新しいノードを追加します。次のネットワーク構成を想定します。

新しいノード構成の場合-

IP address : 192.168.1.103
netmask : 255.255.255.0
hostname : slave3.in

ユーザーとSSHアクセスの追加

ユーザーを追加する

次のコマンドを使用して、新しいノードで「hadoop」ユーザーを追加し、Hadoopユーザーのパスワードを「hadoop123」または必要なものに設定します。

useradd hadoop
passwd hadoop

マスターから新しいスレーブへのセットアップパスワードレス接続。

マスターで次を実行します

mkdir -p $HOME/.ssh
chmod 700 $HOME/.ssh
ssh-keygen -t rsa -P '' -f $HOME/.ssh/id_rsa
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
chmod 644 $HOME/.ssh/authorized_keys
Copy the public key to new slave node in hadoop user $HOME directory
scp $HOME/.ssh/id_rsa.pub hadoop@192.168.1.103:/home/hadoop/

スレーブで次を実行します

hadoopにログインします。そうでない場合は、hadoopユーザーにログインします。

su hadoop ssh -X hadoop@192.168.1.103

公開キーの内容をファイル "$ HOME/.ssh/authorized_keys" にコピーしてから、次のコマンドを実行して、同じアクセス許可を変更します。

cd $HOME
mkdir -p $HOME/.ssh
chmod 700 $HOME/.ssh
cat id_rsa.pub >>$HOME/.ssh/authorized_keys
chmod 644 $HOME/.ssh/authorized_keys

マスターマシンからsshログインを確認します。ここで、マスターからのパスワードなしで新しいノードにsshできるかどうかを確認します。

ssh hadoop@192.168.1.103 or hadoop@slave3

新しいノードのホスト名を設定

ファイル /etc/sysconfig/network でホスト名を設定できます

On new slave3 machine

NETWORKING = yes
HOSTNAME = slave3.in

変更を有効にするには、マシンを再起動するか、それぞれのホスト名で新しいマシンに対してhostnameコマンドを実行します（再起動は適切なオプションです）。

slave3ノードマシン上-

ホスト名slave3.in

次の行を使用して、クラスターのすべてのマシンで /etc/hosts を更新します-

192.168.1.102 slave3.in slave3

ここで、ホスト名を使用してマシンをpingして、IPに解決されているかどうかを確認してください。

新しいノードマシンで-

ping master.in

新しいノードでDataNodeを開始します

*$ HADOOP_HOME/bin/hadoop-daemon.sh script* を使用して、datanodeデーモンを手動で起動します。 マスター（NameNode）に自動的に接続し、クラスターに参加します。 また、新しいノードをマスターサーバーのconf/slavesファイルに追加する必要があります。 スクリプトベースのコマンドは、新しいノードを認識します。

新しいノードにログイン

su hadoop or ssh -X hadoop@192.168.1.103

次のコマンドを使用して、新しく追加されたスレーブノードでHDFSを起動します

./bin/hadoop-daemon.sh start datanode

新しいノードでjpsコマンドの出力を確認します。次のようになります。

$ jps
7141 DataNode
10312 Jps

HadoopクラスターからのDataNodeの削除

データを失うことなく、実行中にクラスターからノードをその場で削除できます。 HDFSは、ノードの削除が安全に実行されることを保証する廃止機能を提供します。それを使用するには、以下の手順に従ってください-

ステップ1-マスターへのログイン

Hadoopがインストールされているマスターマシンユーザーにログインします。

$ su hadoop

ステップ2-クラスター構成の変更

除外ファイルは、クラスターを開始する前に構成する必要があります。 dfs.hosts.excludeという名前のキーを $ HADOOP_HOME/etc/hadoop/hdfs-site.xml ファイルに追加します。このキーに関連付けられた値は、HDFSへの接続が許可されていないマシンのリストを含むNameNodeのローカルファイルシステム上のファイルへのフルパスを提供します。

たとえば、これらの行を etc/hadoop/hdfs-site.xml ファイルに追加します。

<property>
   <name>dfs.hosts.exclude</name>
   <value>/home/hadoop/hadoop-1.2.1/hdfs_exclude.txt</value>
   <description>DFS exclude</description>
</property>

ステップ3-廃止するホストを決定する

廃止する各マシンは、hdfs_exclude.txtで識別されるファイルに追加する必要があります（1行に1つのドメイン名）。これにより、NameNodeに接続できなくなります。 DataNode2を削除する場合、 "/home/hadoop/hadoop-1.2.1/hdfs_exclude.txt" ファイルの内容を以下に示します。

slave2.in

ステップ4-構成の再読み込みを強制する

*"$ HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes"* コマンドを引用符なしで実行します。

$ $HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes

これにより、新しく更新された「除外」ファイルを含め、NameNodeがその構成を強制的に再読み込みされます。一定期間にわたってノードを使用停止し、各ノードのブロックがアクティブのままになるようにスケジュールされているマシンに複製される時間を確保します。

*slave2.in* で、jpsコマンドの出力を確認します。 しばらくすると、DataNodeプロセスが自動的にシャットダウンされます。

ステップ5-ノードのシャットダウン

廃止プロセスが完了したら、廃止されたハードウェアをメンテナンスのために安全にシャットダウンできます。レポートコマンドをdfsadminに実行して、使用停止のステータスを確認します。次のコマンドは、廃止ノードとクラスターに接続されたノードのステータスを記述します。

$ $HADOOP_HOME/bin/hadoop dfsadmin -report

ステップ6-除外ファイルを再度編集する

マシンが廃止されたら、「除外」ファイルから削除できます。 "$ HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes" を再度実行すると、除外ファイルが読み取られてNameNodeに戻されます。メンテナンスが完了した後、またはクラスター内で追加の容量が再び必要になった後などに、DataNodeがクラスターに再参加できるようにします。

特記事項-上記のプロセスに従っても、タスクトラッカープロセスがノードで実行されている場合は、シャットダウンする必要があります。 1つの方法は、上記の手順で行ったようにマシンを切断することです。マスターはプロセスを自動的に認識し、デッドとして宣言します。タスクトラッカーを削除するために同じプロセスを実行する必要はありません。これは、DataNodeと比較してそれほど重要ではないためです。 DataNodeには、データを失うことなく安全に削除するデータが含まれています。

tasktrackerは、いつでも次のコマンドでオンザフライで実行/シャットダウンできます。

$ $HADOOP_HOME/bin/hadoop-daemon.sh stop tasktracker
$HADOOP_HOME/bin/hadoop-daemon.sh start tasktracker

Hadoop-multi-node-cluster