Talend-ビッグデータ

ビッグデータを備えたOpen Studioのタグラインは、「ビッグデータ用の主要な無料オープンソースETLツールでETLとELTを簡素化する」です。この章では、ビッグデータ環境でデータを処理するツールとしてのTalendの使用方法を見てみましょう。

前書き

Talend Open Studio –ビッグデータは、ビッグデータ環境で非常に簡単にデータを処理するための無料のオープンソースツールです。 Talend Open Studioには多数のビッグデータコンポーネントがあり、いくつかのHadoopコンポーネントをドラッグアンドドロップするだけでHadoopジョブを作成および実行できます。

また、MapReduceコードの大きな行を記述する必要はありません。 Talend Open Studioビッグデータは、そこに存在するコンポーネントを使用してこれを行うのに役立ちます。 MapReduceコードを自動的に生成します。コンポーネントをドラッグアンドドロップし、いくつかのパラメーターを設定するだけです。

また、Cloudera、HortonWorks、MapR、Amazon EMR、Apacheなどの複数のビッグデータディストリビューションと接続するオプションも提供します。

ビッグデータ向けのTalendコンポーネント

ビッグデータの下に含まれるビッグデータ環境でジョブを実行するためのコンポーネントを持つカテゴリのリストを以下に示します-

ビッグデータ

Talend Open Studioのビッグデータコネクタとコンポーネントのリストを以下に示します-

tHDFSConnection -HDFS（Hadoop Distributed File System）への接続に使用されます。
tHDFSInput -指定されたhdfsパスからデータを読み取り、talendスキーマに入れてから、ジョブの次のコンポーネントに渡します。
tHDFSList -指定されたhdfsパス内のすべてのファイルとフォルダーを取得します。
tHDFSPut -指定されたパスでローカルファイルシステム（ユーザー定義）からhdfsにファイル/フォルダーをコピーします。
tHDFSGet -指定されたパスでhdfsからローカルファイルシステム（ユーザー定義）にファイル/フォルダーをコピーします。
tHDFSDelete -HDFSからファイルを削除します
tHDFSExist -ファイルがHDFSに存在するかどうかを確認します。
tHDFSOutput -HDFSにデータフローを書き込みます。
tCassandraConnection -Cassandraサーバーへの接続を開きます。
tCassandraRow -指定されたデータベースでCQL（Cassandraクエリ言語）クエリを実行します。
tHBaseConnection -HBaseデータベースへの接続を開きます。
tHBaseInput -HBaseデータベースからデータを読み取ります。
tHiveConnection -Hiveデータベースへの接続を開きます。
tHiveCreateTable -ハイブデータベース内にテーブルを作成します。
tHiveInput -ハイブデータベースからデータを読み取ります。
tHiveLoad -ハイブテーブルまたは指定されたディレクトリにデータを書き込みます。
tHiveRow -指定されたデータベースでHiveQLクエリを実行します。
tPigLoad -入力データを出力ストリームにロードします。
tPigMap -pigプロセスでデータを変換およびルーティングするために使用されます。
tPigJoin -結合キーに基づいて2つのファイルの結合操作を実行します。
tPigCoGroup -複数の入力からのデータをグループ化および集約します。
tPigSort -1つまたは複数の定義済みソートキーに基づいて、指定されたデータをソートします。
tPigStoreResult -pig操作の結果を定義済みのストレージスペースに保存します。
tPigFilterRow -指定された条件に基づいてデータを分割するために、指定された列をフィルタリングします。
tPigDistinct -リレーションから重複するタプルを削除します。
tSqoopImport -MySQL、Oracle DBなどのリレーショナルデータベースからHDFSにデータを転送します。
tSqoopExport -データをHDFSからMySQL、Oracle DBなどのリレーショナルデータベースに転送します

Talend-big-data

Talend-ビッグデータ

前書き

ビッグデータ向けのTalendコンポーネント