Apache-flink-introduction

提供:Dev Guides
移動先:案内検索

Apache Flink-はじめに

Apache Flinkは、ストリーミングデータを処理できるリアルタイム処理フレームワークです。 これは、高性能でスケーラブルで正確なリアルタイムアプリケーション向けのオープンソースストリーム処理フレームワークです。 真のストリーミングモデルがあり、入力データをバッチまたはマイクロバッチとして受け取りません。

Apache FlinkはData Artisans社によって設立され、現在はApache Flink CommunityによってApacheライセンスの下で開発されています。 このコミュニティには、これまでに479人以上の貢献者と15500以上のコミットがあります。

Apache Flinkのエコシステム

以下の図は、Apache Flink Ecosystemのさまざまな層を示しています-

Apache Flinkのエコシステム

ストレージ

Apache Flinkには、データの読み取り/書き込みが可能な場所から複数のオプションがあります。 以下は、基本的なストレージリストです-

  • HDFS(Hadoop分散ファイルシステム)
  • ローカルファイルシステム
  • S3
  • RDBMS(MySQL、Oracle、MS SQLなど)
  • MongoDB
  • HBase
  • アパッチカフカ
  • Apache Flume

展開する

Apache Finkは、ローカルモード、クラスターモード、またはクラウドで展開できます。 クラスターモードは、スタンドアロン、YARN、MESOSにすることができます。

クラウドでは、FlinkはAWSまたはGCPにデプロイできます。

カーネル

これはランタイム層であり、分散処理、フォールトトレランス、信頼性、ネイティブの反復処理機能など​​を提供します。

APIとライブラリ

これは、Apache Flinkの最上位層であり、最も重要な層です。 バッチ処理を処理するDataset APIと、ストリーム処理を処理するDatastream APIがあります。 Flink ML(機械学習用)、Gelly(グラフ処理用)、SQL用テーブルなどのライブラリがあります。 このレイヤーは、Apache Flinkにさまざまな機能を提供します。