Hcatalog-reader-writer
HCatalog-リーダーライター
HCatalogには、MapReduceを使用しない並列入力および出力用のデータ転送APIが含まれています。 このAPIは、テーブルと行の基本的なストレージ抽象化を使用して、Hadoopクラスターからデータを読み取り、そこにデータを書き込みます。
データ転送APIには、主に3つのクラスが含まれています。それらは-
- HCatReader -Hadoopクラスターからデータを読み取ります。
- HCatWriter -Hadoopクラスターにデータを書き込みます。
- DataTransferFactory -リーダーおよびライターのインスタンスを生成します。
このAPIは、マスタースレーブノードのセットアップに適しています。 HCatReader および HCatWriter について詳しく説明します。
HCatReader
HCatReaderはHCatalog内部の抽象クラスであり、レコードが取得される基になるシステムの複雑さを抽象化します。
Sr.No. | Method Name & Description |
---|---|
1 |
Public abstract ReaderContext prepareRead() throws HCatException これをマスターノードで呼び出してReaderContextを取得し、シリアル化してスレーブノードに送信する必要があります。 |
2 |
Public abstract Iterator <HCatRecorder> read() throws HCaException これは、HCatRecordを読み取るためにスレーブノードで呼び出す必要があります。 |
3 |
Public Configuration getConf() 構成クラスオブジェクトを返します。 |
HCatReaderクラスは、HDFSからデータを読み取るために使用されます。 読み取りは2段階のプロセスであり、最初のステップは外部システムのマスターノードで行われます。 2番目のステップは、複数のスレーブノードで並行して実行されます。
読み取りは ReadEntity で行われます。 読み取りを開始する前に、読み取り元のReadEntityを定義する必要があります。 これは、 ReadEntity.Builder を使用して実行できます。 データベース名、テーブル名、パーティション、フィルター文字列を指定できます。 たとえば-
ReadEntity.Builder builder = new ReadEntity.Builder();
ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10.
上記のコードスニペットは、 mydb という名前のデータベースに mytbl という名前のテーブルを含むReadEntityオブジェクト(「エンティティ」)を定義します。これは、このテーブルのすべての行を読み取るために使用できます。 このテーブルは、この操作を開始する前にHCatalogに存在する必要があることに注意してください。
ReadEntityを定義した後、ReadEntityとクラスタ構成を使用してHCatReaderのインスタンスを取得します-
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
次のステップは、次のようにリーダーからReaderContextを取得することです-
ReaderContext cntxt = reader.prepareRead();
HCatWriter
この抽象化はHCatalogの内部にあります。 これは、外部システムからHCatalogへの書き込みを容易にするためです。 これを直接インスタンス化しようとしないでください。 代わりに、DataTransferFactoryを使用してください。
Sr.No. | Method Name & Description |
---|---|
1 |
Public abstract WriterContext prepareRead() throws HCatException 外部システムは、マスターノードからこのメソッドを1回だけ呼び出す必要があります。 WriterContext を返します。 これをシリアル化してスレーブノードに送信し、そこで HCatWriter を構築する必要があります。 |
2 |
Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException このメソッドは、スレーブノードで書き込みを実行するために使用する必要があります。 recordItrは、HCatalogに書き込まれるレコードのコレクションを含む反復子オブジェクトです。 |
3 |
Public abstract void abort(WriterContext cntxt) throws HCatException このメソッドは、マスターノードで呼び出す必要があります。 このメソッドの主な目的は、障害が発生した場合にクリーンアップを行うことです。 |
4 |
public abstract void commit(WriterContext cntxt) throws HCatException このメソッドは、マスターノードで呼び出す必要があります。 このメソッドの目的は、メタデータのコミットを行うことです。 |
読み取りと同様に、書き込みも2段階のプロセスであり、最初のステップがマスターノードで発生します。 その後、スレーブノードで2番目のステップが並行して行われます。
書き込みは、読み取りに似た方法で構築できる WriteEntity で行われます-
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();
上記のコードは、データベース mydb の mytbl という名前のテーブルに書き込むために使用できるWriteEntityオブジェクト `+ entity +`を作成します。
WriteEntityを作成した後、次のステップはWriterContextを取得することです-
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
上記の手順はすべてマスターノードで実行されます。 次に、マスターノードはWriterContextオブジェクトをシリアル化し、すべてのスレーブで使用できるようにします。
スレーブノードでは、次のようにWriterContextを使用してHCatWriterを取得する必要があります-
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
次に、 writer はイテレータを `+ write +`メソッドの引数として受け取ります-
writer.write(hCatRecordItr);
その後、 writer はループ内でこのイテレーターで* getNext()*を呼び出し、イテレーターに接続されているすべてのレコードを書き出します。
*TestReaderWriter.java* ファイルは、HCatreaderクラスとHCatWriterクラスをテストするために使用されます。 次のプログラムは、HCatReaderおよびHCatWriter APIを使用してソースファイルからデータを読み取り、続いてそれを宛先ファイルに書き込む方法を示しています。
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.metastore.api.MetaException;
import org.apache.hadoop.hive.ql.CommandNeedRetryException;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hive.HCatalog.common.HCatException;
import org.apache.hive.HCatalog.data.transfer.DataTransferFactory;
import org.apache.hive.HCatalog.data.transfer.HCatReader;
import org.apache.hive.HCatalog.data.transfer.HCatWriter;
import org.apache.hive.HCatalog.data.transfer.ReadEntity;
import org.apache.hive.HCatalog.data.transfer.ReaderContext;
import org.apache.hive.HCatalog.data.transfer.WriteEntity;
import org.apache.hive.HCatalog.data.transfer.WriterContext;
import org.apache.hive.HCatalog.mapreduce.HCatBaseTest;
import org.junit.Assert;
import org.junit.Test;
public class TestReaderWriter extends HCatBaseTest {
@Test
public void test() throws MetaException, CommandNeedRetryException,
IOException, ClassNotFoundException {
driver.run("drop table mytbl");
driver.run("create table mytbl (a string, b int)");
Iterator<Entry<String, String>> itr = hiveConf.iterator();
Map<String, String> map = new HashMap<String, String>();
while (itr.hasNext()) {
Entry<String, String> kv = itr.next();
map.put(kv.getKey(), kv.getValue());
}
WriterContext cntxt = runsInMaster(map);
File writeCntxtFile = File.createTempFile("hcat-write", "temp");
writeCntxtFile.deleteOnExit();
//Serialize context.
ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile));
oos.writeObject(cntxt);
oos.flush();
oos.close();
//Now, deserialize it.
ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile));
cntxt = (WriterContext) ois.readObject();
ois.close();
runsInSlave(cntxt);
commit(map, true, cntxt);
ReaderContext readCntxt = runsInMaster(map, false);
File readCntxtFile = File.createTempFile("hcat-read", "temp");
readCntxtFile.deleteOnExit();
oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile));
oos.writeObject(readCntxt);
oos.flush();
oos.close();
ois = new ObjectInputStream(new FileInputStream(readCntxtFile));
readCntxt = (ReaderContext) ois.readObject();
ois.close();
for (int i = 0; i < readCntxt.numSplits(); i++) {
runsInSlave(readCntxt, i);
}
}
private WriterContext runsInMaster(Map<String, String> config) throws HCatException {
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withTable("mytbl").build();
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
return info;
}
private ReaderContext runsInMaster(Map<String, String> config,
boolean bogus) throws HCatException {
ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build();
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
ReaderContext cntxt = reader.prepareRead();
return cntxt;
}
private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException {
HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum);
Iterator<HCatRecord> itr = reader.read();
int i = 1;
while (itr.hasNext()) {
HCatRecord read = itr.next();
HCatRecord written = getRecord(i++);
//Argh, HCatRecord doesnt implement equals()
Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0),
written.get(0).equals(read.get(0)));
Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1),
written.get(1).equals(read.get(1)));
Assert.assertEquals(2, read.size());
}
//Assert.assertFalse(itr.hasNext());
}
private void runsInSlave(WriterContext context) throws HCatException {
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
writer.write(new HCatRecordItr());
}
private void commit(Map<String, String> config, boolean status,
WriterContext context) throws IOException {
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withTable("mytbl").build();
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
if (status) {
writer.commit(context);
} else {
writer.abort(context);
}
}
private static HCatRecord getRecord(int i) {
List<Object> list = new ArrayList<Object>(2);
list.add("Row #: " + i);
list.add(i);
return new DefaultHCatRecord(list);
}
private static class HCatRecordItr implements Iterator<HCatRecord> {
int i = 0;
@Override
public boolean hasNext() {
return i++ < 100 ? true : false;
}
@Override
public HCatRecord next() {
return getRecord(i);
}
@Override
public void remove() {
throw new RuntimeException();
}
}
}
上記のプログラムは、HDFSからレコードの形式でデータを読み取り、レコードデータを mytable に書き込みます。