Apache-pig-binstorage

提供:Dev Guides
移動先:案内検索

Apache Pig-BinStorage()

  • BinStorage()関数は、機械可読形式を使用して、Pigにデータをロードおよび保存するために使用されます。 Pigの BinStorge()*は通常、MapReduceジョブ間で生成された一時データを保存するために使用されます。 入力として複数の場所をサポートします。

構文

以下に、* BinStorage()*関数の構文を示します。

grunt> BinStorage();

以下に示すように、HDFSディレクトリ /pig_data/stu_data.txt という名前のファイルがあると仮定します。

*Stu_data.txt*
001,Rajiv_Reddy,21,Hyderabad
002,siddarth_Battacharya,22,Kolkata
003,Rajesh_Khanna,22,Delhi
004,Preethi_Agarwal,21,Pune
005,Trupthi_Mohanthy,23,Bhuwaneshwar
006,Archana_Mishra,23,Chennai
007,Komal_Nayak,24,trivendram
008,Bharathi_Nambiayar,24,Chennai

以下に示すように、このデータをPigにリレーションにロードしましょう。

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/stu_data.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, age:int, city:chararray);

これで、* BinStorage()関数を使用して、この関係を */pig_data/ という名前のHDFSディレクトリに*保存*できます。

grunt> STORE student_details INTO 'hdfs://localhost:9000/pig_Output/mydata' USING BinStorage();

上記のステートメントを実行すると、関係は指定されたHDFSディレクトリに保存されます。 以下に示すように、HDFS * lsコマンド*を使用して表示できます。

$ hdfs dfs -ls hdfs://localhost:9000/pig_Output/mydata/

Found 2 items
-rw-r--r--   1 Hadoop supergroup       0 2015-10-26 16:58
hdfs://localhost:9000/pig_Output/mydata/_SUCCESS

-rw-r--r--   1 Hadoop supergroup        372 2015-10-26 16:58
hdfs://localhost:9000/pig_Output/mydata/part-m-00000

ここで、ファイル part-m-00000 からデータをロードします。

grunt> result = LOAD 'hdfs://localhost:9000/pig_Output/b/part-m-00000' USING BinStorage();

以下に示すように、関係の内容を確認します

grunt> Dump result;

(1,Rajiv_Reddy,21,Hyderabad)
(2,siddarth_Battacharya,22,Kolkata)
(3,Rajesh_Khanna,22,Delhi)
(4,Preethi_Agarwal,21,Pune)
(5,Trupthi_Mohanthy,23,Bhuwaneshwar)
(6,Archana_Mishra,23,Chennai)
(7,Komal_Nayak,24,trivendram)
(8,Bharathi_Nambiayar,24,Chennai)