Talend-big-data

提供:Dev Guides
移動先:案内検索

Talend-ビッグデータ

ビッグデータを備えたOpen Studioのタグラインは、「ビッグデータ用の主要な無料オープンソースETLツールでETLとELTを簡素化する」です。この章では、ビッグデータ環境でデータを処理するツールとしてのTalendの使用方法を見てみましょう。

前書き

Talend Open Studio –ビッグデータは、ビッグデータ環境で非常に簡単にデータを処理するための無料のオープンソースツールです。 Talend Open Studioには多数のビッグデータコンポーネントがあり、いくつかのHadoopコンポーネントをドラッグアンドドロップするだけでHadoopジョブを作成および実行できます。

また、MapReduceコードの大きな行を記述する必要はありません。 Talend Open Studioビッグデータは、そこに存在するコンポーネントを使用してこれを行うのに役立ちます。 MapReduceコードを自動的に生成します。コンポーネントをドラッグアンドドロップし、いくつかのパラメーターを設定するだけです。

また、Cloudera、HortonWorks、MapR、Amazon EMR、Apacheなどの複数のビッグデータディストリビューションと接続するオプションも提供します。

ビッグデータ向けのTalendコンポーネント

ビッグデータの下に含まれるビッグデータ環境でジョブを実行するためのコンポーネントを持つカテゴリのリストを以下に示します-

ビッグデータ

Talend Open Studioのビッグデータコネクタとコンポーネントのリストを以下に示します-

  • tHDFSConnection -HDFS(Hadoop Distributed File System)への接続に使用されます。
  • tHDFSInput -指定されたhdfsパスからデータを読み取り、talendスキーマに入れてから、ジョブの次のコンポーネントに渡します。
  • tHDFSList -指定されたhdfsパス内のすべてのファイルとフォルダーを取得します。
  • tHDFSPut -指定されたパスでローカルファイルシステム(ユーザー定義)からhdfsにファイル/フォルダーをコピーします。
  • tHDFSGet -指定されたパスでhdfsからローカルファイルシステム(ユーザー定義)にファイル/フォルダーをコピーします。
  • tHDFSDelete -HDFSからファイルを削除します
  • tHDFSExist -ファイルがHDFSに存在するかどうかを確認します。
  • tHDFSOutput -HDFSにデータフローを書き込みます。
  • tCassandraConnection -Cassandraサーバーへの接続を開きます。
  • tCassandraRow -指定されたデータベースでCQL(Cassandraクエリ言語)クエリを実行します。
  • tHBaseConnection -HBaseデータベースへの接続を開きます。
  • tHBaseInput -HBaseデータベースからデータを読み取ります。
  • tHiveConnection -Hiveデータベースへの接続を開きます。
  • tHiveCreateTable -ハイブデータベース内にテーブルを作成します。
  • tHiveInput -ハイブデータベースからデータを読み取ります。
  • tHiveLoad -ハイブテーブルまたは指定されたディレクトリにデータを書き込みます。
  • tHiveRow -指定されたデータベースでHiveQLクエリを実行します。
  • tPigLoad -入力データを出力ストリームにロードします。
  • tPigMap -pigプロセスでデータを変換およびルーティングするために使用されます。
  • tPigJoin -結合キーに基づいて2つのファイルの結合操作を実行します。
  • tPigCoGroup -複数の入力からのデータをグループ化および集約します。
  • tPigSort -1つまたは複数の定義済みソートキーに基づいて、指定されたデータをソートします。
  • tPigStoreResult -pig操作の結果を定義済みのストレージスペースに保存します。
  • tPigFilterRow -指定された条件に基づいてデータを分割するために、指定された列をフィルタリングします。
  • tPigDistinct -リレーションから重複するタプルを削除します。
  • tSqoopImport -MySQL、Oracle DBなどのリレーショナルデータベースからHDFSにデータを転送します。
  • tSqoopExport -データをHDFSからMySQL、Oracle DBなどのリレーショナルデータベースに転送します