Amazon-web-services-elastic-mapreduce

提供:Dev Guides
移動先:案内検索

アマゾンウェブサービス-Elastic MapReduce

  • Amazon Elastic MapReduce(EMR)*は、Apache Hadoop、Apache Spark、Prestoなどのデータ処理フレームワークを簡単、費用対効果、安全な方法で実行するためのマネージドフレームワークを提供するWebサービスです。

データ分析、Webインデックス、データウェアハウジング、財務分析、科学シミュレーションなどに使用されます。

Amazon EMRをセットアップする方法は?

Amazon EMRをセットアップするには、次の手順に従います-

  • ステップ1 *-AWSアカウントにサインインし、管理コンソールでAmazon EMRを選択します。
  • ステップ2 *-クラスターログと出力データ用のAmazon S3バケットを作成します。 (手順はAmazon S3セクションで詳細に説明されています)
  • ステップ3 *-Amazon EMRクラスターを起動します。

以下は、クラスターを作成し、EMRに起動する手順です。

クラスター構成

  • [タグ]セクションのオプションはデフォルトのままにして、続行します。
  • [ソフトウェア構成]セクションで、オプションをデフォルトとしてレベル設定します。

Spark

  • [ファイルシステムの構成]セクションで、EMRFSのオプションをデフォルトの設定のままにします。 EMRFSはHDFSの実装であり、Amazon EMRクラスターがAmazon S3にデータを保存できるようにします。

サーバー側暗号化

  • [ハードウェア構成]セクションの[EC2インスタンスタイプ]フィールドで[m3.xlarge]を選択し、他の設定はデフォルトのままにします。 [次へ]ボタンをクリックします。

ハードウェア構成

  • [セキュリティとアクセス]セクションのEC2キーペアで、[EC2キーペア]フィールドのリストからペアを選択し、他の設定はデフォルトのままにします。
  • [ブートストラップアクション]セクションで、フィールドをデフォルトで設定されたままにして、[追加]ボタンをクリックします。 ブートストラップアクションは、すべてのクラスターノードでHadoopが開始される前のセットアップ中に実行されるスクリプトです。
  • [ステップ]セクションで、設定をデフォルトのままにして続行します。
  • [クラスターの作成]ボタンをクリックすると、[クラスターの詳細]ページが開きます。 ここで、クラスターステップとしてHiveスクリプトを実行し、Hue Webインターフェイスを使用してデータをクエリする必要があります。
  • ステップ4 *-次のステップを使用してHiveスクリプトを実行します。
  • Amazon EMRコンソールを開き、目的のクラスターを選択します。
  • [ステップ]セクションに移動して展開します。 次に、[ステップの追加]ボタンをクリックします。
  • [ステップの追加]ダイアログボックスが開きます。 必要なフィールドに入力し、[追加]ボタンをクリックします。

ストリーミングプログラム

  • Hiveスクリプトの出力を表示するには、次の手順を使用します-
  • Amazon S3コンソールを開き、出力データに使用するS3バケットを選択します。
  • 出力フォルダーを選択します。 クエリは、結果を別のフォルダーに書き込みます。 os_requests *を選択します。
  • 出力はテキストファイルに保存されます。 このファイルはダウンロードできます。

Amazon EMRの利点

Amazon EMRの利点は次のとおりです-

  • 使いやすい-Amazon EMRは簡単に使用できます。 クラスター、Hadoop構成、ノードプロビジョニングなどのセットアップは簡単です。
  • 信頼性-失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えるという意味で信頼性があります。
  • 弾性-Amazon EMRでは、あらゆる規模でデータを処理するために大量のインスタンスを計算できます。 インスタンスの数を簡単に増減できます。
  • セキュア-Amazon EC2ファイアウォール設定を自動的に構成し、インスタンスへのネットワークアクセスを制御し、Amazon VPCでクラスターを起動します。
  • 柔軟-クラスタを完全に制御し、すべてのインスタンスへのルートアクセスを許可します。 また、追加のアプリケーションのインストールを許可し、要件に応じてクラスターをカスタマイズします。
  • 費用対効果-その価格は簡単に見積もることができます。 使用されるインスタンスごとに1時間ごとに課金されます。