Apache-flume-introduction

提供:Dev Guides
移動先:案内検索

Apache Flume-はじめに

Flumeとは何ですか?

Apache Flumeは、ログファイル、イベントなどの大量のストリーミングデータを収集し、さまざまなソースから中央のデータストアに転送するためのツール/サービス/データ取り込みメカニズムです。

Flumeは、信頼性が高く、分散された、構成可能なツールです。 主に、さまざまなWebサーバーからHDFSにストリーミングデータ(ログデータ)をコピーするように設計されています。

Apache Flume

Flumeのアプリケーション

eコマースWebアプリケーションが特定の地域の顧客行動を分析したいとします。 そのためには、利用可能なログデータを分析のためにHadoopに移動する必要があります。 ここで、Apache Flumeが助けになります。

Flumeは、アプリケーションサーバーによって生成されたログデータをより高速でHDFSに移動するために使用されます。

Flumeの利点

Flumeを使用する利点は次のとおりです-

  • Apache Flumeを使用して、データを任意の中央ストア(HBase、HDFS)に保存できます。
  • 着信データのレートがデータを宛先に書き込むことができるレートを超えると、Flumeはデータプロデューサーと中央ストア間のメディエーターとして機能し、ストア間でデータの安定したフローを提供します。
  • Flumeは、*コンテキストルーティング*の機能を提供します。
  • Flumeのトランザクションはチャネルベースであり、メッセージごとに2つのトランザクション(1つの送信者と1つの受信者)が維持されます。 信頼できるメッセージ配信を保証します。
  • Flumeは、信頼性、耐障害性、拡張性、管理性、カスタマイズ性に優れています。

Flumeの機能

Flumeの注目すべき機能のいくつかは次のとおりです-

  • Flumeは、複数のWebサーバーからログデータを中央ストア(HDFS、HBase)に効率的に取り込みます。
  • Flumeを使用すると、複数のサーバーからHadoopにデータをすぐに取得できます。
  • ログファイルに加えて、Flumeは、FacebookやTwitterなどのソーシャルネットワーキングサイトや、AmazonやFlipkartなどのeコマースWebサイトで生成された大量のイベントデータをインポートするためにも使用されます。
  • Flumeは、多数のソースと宛先のタイプをサポートしています。
  • Flumeは、マルチホップフロー、ファンインファンアウトフロー、コンテキストルーティングなどをサポートしています。
  • Flumeは水平方向に拡大縮小できます。