Apache-pig-count
提供:Dev Guides
Apache Pig-COUNT()
Pig Latinの* COUNT()関数は、バッグ内の要素の数を取得するために使用されます。 バッグ内のタプルの数をカウントしている間、 COUNT()*関数は、最初のフィールドにNULL値を持つタプルを無視します(カウントしません)。
注-
- グローバルカウント値(バッグ内のタプルの総数)を取得するには、 Group All 操作を実行し、COUNT()関数を使用してカウント値を計算する必要があります。
- グループのカウント値(グループ内のタプル数)を取得するには、Group By演算子を使用してグループ化し、カウント機能を続行する必要があります。
構文
以下に、* COUNT()*関数の構文を示します。
例
以下に示すように、HDFSディレクトリ /pig_data/ に student_details.txt という名前のファイルがあると仮定します。
そして、以下に示すように、このファイルを student_details という名前の関係でPigにロードしました。
タプル数の計算
組み込み関数* COUNT()(大文字と小文字を区別)を使用して、リレーションのタプル数を計算できます。 *Group All 演算子を使用してリレーション student_details をグループ化し、以下に示すように student_group_all という名前のリレーションに結果を保存します。
以下に示すような関係が生成されます。
リレーションのタプル/レコードの数を計算してみましょう。
検証
以下に示すように、 DUMP 演算子を使用してリレーション student_count を確認します。
出力
リレーションstudent_countの内容を表示する次の出力が生成されます。