Apache-pig-plucktuple
提供:Dev Guides
Apache Pig-PluckTuple()
結合などの操作を実行して2つのスキーマの列を区別した後、関数* PluckTuple()*を使用します。 この関数を使用するには、まず文字列Prefixを定義し、その接頭辞で始まるリレーションの列をフィルタリングする必要があります。
構文
以下に、* PluckTuple()*関数の構文を示します。
例
HDFSディレクトリ /pig_data/ に emp_sales.txt と emp_bonus.txt の2つのファイルがあるとします。 emp_sales.txt には営業部門の従業員の詳細が含まれ、 emp_bonus.txt にはボーナスを受け取った従業員の詳細が含まれます。
そして、これらのファイルを、それぞれ emp_sales および emp_bonus というリレーション名でPigにロードしました。
以下に示すように、 join 演算子を使用してこれら2つの関係を結合します。
PluckTuple()関数を使用する
ここで、* PluckTupe()*関数を使用して列を区別するために必要な式を定義します。
以下に示すように、 join_data 関係の列をフィルターします。
以下に示すように、 data という名前の関係を記述します。
- 式を*“ a
- :” として定義したため、 *emp_sales スキーマの列は *emp_sales
- column name* として取り出され、 emp_bonus スキーマの列は* emp_bonus :: columnとして取り出されます。名*