Talend-big-data
提供:Dev Guides
Talend-ビッグデータ
ビッグデータを備えたOpen Studioのタグラインは、「ビッグデータ用の主要な無料オープンソースETLツールでETLとELTを簡素化する」です。この章では、ビッグデータ環境でデータを処理するツールとしてのTalendの使用方法を見てみましょう。
前書き
Talend Open Studio –ビッグデータは、ビッグデータ環境で非常に簡単にデータを処理するための無料のオープンソースツールです。 Talend Open Studioには多数のビッグデータコンポーネントがあり、いくつかのHadoopコンポーネントをドラッグアンドドロップするだけでHadoopジョブを作成および実行できます。
また、MapReduceコードの大きな行を記述する必要はありません。 Talend Open Studioビッグデータは、そこに存在するコンポーネントを使用してこれを行うのに役立ちます。 MapReduceコードを自動的に生成します。コンポーネントをドラッグアンドドロップし、いくつかのパラメーターを設定するだけです。
また、Cloudera、HortonWorks、MapR、Amazon EMR、Apacheなどの複数のビッグデータディストリビューションと接続するオプションも提供します。
ビッグデータ向けのTalendコンポーネント
ビッグデータの下に含まれるビッグデータ環境でジョブを実行するためのコンポーネントを持つカテゴリのリストを以下に示します-
Talend Open Studioのビッグデータコネクタとコンポーネントのリストを以下に示します-
- tHDFSConnection -HDFS(Hadoop Distributed File System)への接続に使用されます。
- tHDFSInput -指定されたhdfsパスからデータを読み取り、talendスキーマに入れてから、ジョブの次のコンポーネントに渡します。
- tHDFSList -指定されたhdfsパス内のすべてのファイルとフォルダーを取得します。
- tHDFSPut -指定されたパスでローカルファイルシステム(ユーザー定義)からhdfsにファイル/フォルダーをコピーします。
- tHDFSGet -指定されたパスでhdfsからローカルファイルシステム(ユーザー定義)にファイル/フォルダーをコピーします。
- tHDFSDelete -HDFSからファイルを削除します
- tHDFSExist -ファイルがHDFSに存在するかどうかを確認します。
- tHDFSOutput -HDFSにデータフローを書き込みます。
- tCassandraConnection -Cassandraサーバーへの接続を開きます。
- tCassandraRow -指定されたデータベースでCQL(Cassandraクエリ言語)クエリを実行します。
- tHBaseConnection -HBaseデータベースへの接続を開きます。
- tHBaseInput -HBaseデータベースからデータを読み取ります。
- tHiveConnection -Hiveデータベースへの接続を開きます。
- tHiveCreateTable -ハイブデータベース内にテーブルを作成します。
- tHiveInput -ハイブデータベースからデータを読み取ります。
- tHiveLoad -ハイブテーブルまたは指定されたディレクトリにデータを書き込みます。
- tHiveRow -指定されたデータベースでHiveQLクエリを実行します。
- tPigLoad -入力データを出力ストリームにロードします。
- tPigMap -pigプロセスでデータを変換およびルーティングするために使用されます。
- tPigJoin -結合キーに基づいて2つのファイルの結合操作を実行します。
- tPigCoGroup -複数の入力からのデータをグループ化および集約します。
- tPigSort -1つまたは複数の定義済みソートキーに基づいて、指定されたデータをソートします。
- tPigStoreResult -pig操作の結果を定義済みのストレージスペースに保存します。
- tPigFilterRow -指定された条件に基づいてデータを分割するために、指定された列をフィルタリングします。
- tPigDistinct -リレーションから重複するタプルを削除します。
- tSqoopImport -MySQL、Oracle DBなどのリレーショナルデータベースからHDFSにデータを転送します。
- tSqoopExport -データをHDFSからMySQL、Oracle DBなどのリレーショナルデータベースに転送します