Mahout-environment
Mahout-環境
この章では、mahoutのセットアップ方法を説明します。 JavaとHadoopは、mahoutの前提条件です。 以下に、Java、Hadoop、およびMahoutをダウンロードしてインストールする手順を示します。
インストール前のセットアップ
Linux環境にHadoopをインストールする前に、 ssh (Secure Shell)を使用してLinuxをセットアップする必要があります。 Linux環境をセットアップするには、以下の手順に従ってください。
ユーザーを作成する
Hadoopの別のユーザーを作成して、HadoopファイルシステムをUnixファイルシステムから分離することをお勧めします。 以下の手順に従って、ユーザーを作成します。
- コマンド「su」を使用してルートを開きます。
- *“ useradd username” *コマンドを使用して、rootアカウントからユーザーを作成します。
- これで、*“ su username” *コマンドを使用して既存のユーザーアカウントを開くことができます。
- Linuxターミナルを開き、次のコマンドを入力してユーザーを作成します。
SSHセットアップとキー生成
SSHのセットアップは、デーモンシェル操作の開始、停止、分散など、クラスターでさまざまな操作を実行するために必要です。 Hadoopのさまざまなユーザーを認証するには、Hadoopユーザーに公開/秘密キーペアを提供し、それをさまざまなユーザーと共有する必要があります。
次のコマンドを使用して、SSHを使用してキーと値のペアを生成し、id_rsa.pubから公開キーをauthorized_keysにコピーし、authorized_keysファイルにそれぞれ所有者、読み取り、書き込み権限を付与します。
sshの検証
Javaのインストール
Javaは、HadoopとHBaseの主要な前提条件です。 まず、「java -version」を使用してシステム内のJavaの存在を確認する必要があります。 Javaバージョンコマンドの構文は次のとおりです。
次の出力が生成されます。
システムにJavaがインストールされていない場合は、Javaをインストールするための以下の手順に従ってください。
ステップ1
次のリンクにアクセスして、Java(JDK <最新バージョン>-X64.tar.gz)をダウンロードします。http://download.oracle.com/otn-pub/java/jdk/7u75-b13/jdk-7u75-windows-x64 .exe [Oracle]
次に、* jdk-7u71-linux-x64.tar.gzがシステムにダウンロードされます*。
ステップ2
通常、ダウンロードしたJavaファイルは、ダウンロードフォルダーにあります。 それを確認し、次のコマンドを使用して jdk-7u71-linux-x64.gz ファイルを抽出します。
- ステップ3 *
すべてのユーザーがJavaを使用できるようにするには、Javaを「/usr/local/」の場所に移動する必要があります。 ルートを開き、次のコマンドを入力します。
- ステップ4 *
次に、上記で説明したように、ターミナルから java -version コマンドを確認します。
Hadoopをダウンロードする
Javaをインストールしたら、最初にHadoopをインストールする必要があります。 以下に示すように、「Hadoopバージョン」コマンドを使用して、Hadoopの存在を確認します。
次の出力が生成されます。
システムがHadoopを見つけられない場合は、Hadoopをダウンロードしてシステムにインストールします。 以下のコマンドに従ってください。
次のコマンドを使用して、Apache Software Foundationからhadoop-2.6.0をダウンロードして抽出します。
Hadoopのインストール
必要なモードのいずれかでHadoopをインストールします。 ここでは、疑似分散モードでHBaseの機能を実証しているため、Hadoopを疑似分散モードでインストールします。
以下の手順に従って、 Hadoop 2.4.1 をシステムにインストールします。
ステップ1:Hadoopのセットアップ
次のコマンドを*〜/.bashrc *ファイルに追加することにより、Hadoop環境変数を設定できます。
次に、現在実行中のシステムにすべての変更を適用します。
ステップ2:Hadoopの構成
すべてのHadoop構成ファイルは、「$ HADOOP_HOME/etc/hadoop」の場所にあります。 Hadoopインフラストラクチャに応じて、これらの構成ファイルを変更する必要があります。
JavaでHadoopプログラムを開発するには、 JAVA_HOME 値をシステム内のJavaの場所に置き換えて、 hadoop-env.sh ファイルのJava環境変数をリセットする必要があります。
以下は、Hadoopを構成するために編集する必要があるファイルのリストです。
core-site.xmlを開き、<configuration>タグと</configuration>タグの間に次のプロパティを追加します。
次のデータを想定します。
このファイルを開き、このファイルの<configuration>タグと</configuration>タグの間に次のプロパティを追加します。
- 注意:*上記のファイルでは、すべてのプロパティ値はユーザー定義です。 Hadoopインフラストラクチャに応じて変更できます。
このファイルは、Hadoopに糸を設定するために使用されます。 mapred-site.xmlファイルを開き、このファイルの<configuration>タグと</configuration>タグの間に次のプロパティを追加します。
このファイルは、使用しているMapReduceフレームワークを指定するために使用されます。 デフォルトでは、Hadoopにはmapred-site.xmlのテンプレートが含まれています。 まず、次のコマンドを使用して、 mapred-site.xml.template から mapred-site.xml ファイルにファイルをコピーする必要があります。
Hadoopインストールの検証
次の手順を使用して、Hadoopのインストールを確認します。
ステップ1:ノードのセットアップに名前を付ける
次のようにコマンド「hdfs namenode -format」を使用して、namenodeをセットアップします。
予想される結果は次のとおりです。
ステップ2:Hadoop dfの検証
次のコマンドは、dfsを開始するために使用されます。 このコマンドは、Hadoopファイルシステムを起動します。
予想される出力は次のとおりです。
ステップ3:糸スクリプトの検証
次のコマンドを使用して、糸スクリプトを開始します。 このコマンドを実行すると、ヤーンデーモンが起動します。
予想される出力は次のとおりです。
ステップ4:ブラウザーでHadoopにアクセスする
hadoopにアクセスするためのデフォルトのポート番号は50070です。 次のURLを使用して、ブラウザーでHadoopサービスを取得します。
ステップ5:クラスターのすべてのアプリケーションを確認する
クラスターのすべてのアプリケーションにアクセスするためのデフォルトのポート番号は8088です。 このサービスにアクセスするには、次のURLを使用してください。
Mahoutのダウンロード
Mahoutは、Webサイトhttp://mahout.apache.org/.[Mahout]で入手できます。 WebサイトにあるリンクからMahoutをダウンロードします。 これがウェブサイトのスクリーンショットです。
ステップ1
次のコマンドを使用して、リンクhttp://mirror.nexcess.net/apache/mahout/からApache mahoutをダウンロードします。
次に、 mahout-distribution-0.9.tar.gz がシステムにダウンロードされます。
ステップ2
Mavenリポジトリ
以下に、Eclipseを使用してApache Mahoutを構築するためのpom.xmlを示します。