Apache-flink-api-concepts
Apache Flink-APIの概念
Flinkには、開発者がバッチデータとリアルタイムデータの両方で変換を実行できるAPIの豊富なセットがあります。 さまざまな変換には、マッピング、フィルタリング、並べ替え、結合、グループ化、および集約が含まれます。 Apache Flinkによるこれらの変換は、分散データに対して実行されます。 Apache Flinkが提供するさまざまなAPIについて説明しましょう。
データセットAPI
Apache FlinkのデータセットAPIは、一定期間にわたってデータに対してバッチ操作を実行するために使用されます。 このAPIは、Java、Scala、Pythonで使用できます。 フィルタリング、マッピング、集約、結合、グループ化などのさまざまな種類の変換をデータセットに適用できます。
データセットはローカルファイルなどのソースから作成されるか、特定のソースからファイルを読み取ることで作成され、結果ファイルは分散ファイルやコマンドライン端末などのさまざまなシンクに書き込むことができます。 このAPIは、JavaとScalaプログラミング言語の両方でサポートされています。
ここにDataset APIのWordcountプログラムがあります-
DataStream API
このAPIは、連続ストリームでデータを処理するために使用されます。 ストリームデータのフィルタリング、マッピング、ウィンドウ化、集計などのさまざまな操作を実行できます。 このデータストリームには、メッセージキュー、ファイル、ソケットストリームなどのさまざまなソースがあり、コマンドラインターミナルなどのさまざまなシンクに結果データを書き込むことができます。 JavaとScalaプログラミング言語の両方がこのAPIをサポートしています。
DataStream APIのストリーミングワードカウントプログラムを次に示します。ここでは、ワードカウントの連続ストリームがあり、データは2番目のウィンドウにグループ化されます。