Apache-flume-introduction
提供:Dev Guides
Apache Flume-はじめに
Flumeとは何ですか?
Apache Flumeは、ログファイル、イベントなどの大量のストリーミングデータを収集し、さまざまなソースから中央のデータストアに転送するためのツール/サービス/データ取り込みメカニズムです。
Flumeは、信頼性が高く、分散された、構成可能なツールです。 主に、さまざまなWebサーバーからHDFSにストリーミングデータ(ログデータ)をコピーするように設計されています。
Flumeのアプリケーション
eコマースWebアプリケーションが特定の地域の顧客行動を分析したいとします。 そのためには、利用可能なログデータを分析のためにHadoopに移動する必要があります。 ここで、Apache Flumeが助けになります。
Flumeは、アプリケーションサーバーによって生成されたログデータをより高速でHDFSに移動するために使用されます。
Flumeの利点
Flumeを使用する利点は次のとおりです-
- Apache Flumeを使用して、データを任意の中央ストア(HBase、HDFS)に保存できます。
- 着信データのレートがデータを宛先に書き込むことができるレートを超えると、Flumeはデータプロデューサーと中央ストア間のメディエーターとして機能し、ストア間でデータの安定したフローを提供します。
- Flumeは、*コンテキストルーティング*の機能を提供します。
- Flumeのトランザクションはチャネルベースであり、メッセージごとに2つのトランザクション(1つの送信者と1つの受信者)が維持されます。 信頼できるメッセージ配信を保証します。
- Flumeは、信頼性、耐障害性、拡張性、管理性、カスタマイズ性に優れています。
Flumeの機能
Flumeの注目すべき機能のいくつかは次のとおりです-
- Flumeは、複数のWebサーバーからログデータを中央ストア(HDFS、HBase)に効率的に取り込みます。
- Flumeを使用すると、複数のサーバーからHadoopにデータをすぐに取得できます。
- ログファイルに加えて、Flumeは、FacebookやTwitterなどのソーシャルネットワーキングサイトや、AmazonやFlipkartなどのeコマースWebサイトで生成された大量のイベントデータをインポートするためにも使用されます。
- Flumeは、多数のソースと宛先のタイプをサポートしています。
- Flumeは、マルチホップフロー、ファンインファンアウトフロー、コンテキストルーティングなどをサポートしています。
- Flumeは水平方向に拡大縮小できます。