HCatalog-はじめに

HCatalogとは何ですか？

HCatalogは、Hadoop用のテーブルストレージ管理ツールです。 Hiveメタストアの表形式データを他のHadoopアプリケーションに公開します。さまざまなデータ処理ツール（Pig、MapReduce）を使用するユーザーがグリッドにデータを簡単に書き込むことができます。これにより、ユーザーはデータが保存されている場所や形式を気にする必要がなくなります。

HCatalogはHiveの重要なコンポーネントのように機能し、ユーザーがデータを任意の形式と構造で保存できるようにします。

HCatalogを選ぶ理由

適切なジョブに適切なツールを有効にする

Hadoopエコシステムには、Hive、Pig、MapReduceなどのデータ処理用のさまざまなツールが含まれています。これらのツールはメタデータを必要としませんが、メタデータが存在する場合でもメタデータを活用できます。また、メタデータストアを共有すると、ツール間でユーザーがデータをより簡単に共有できるようになります。 MapReduceまたはPigを使用してデータをロードおよび正規化し、Hiveを介して分析するワークフローは非常に一般的です。これらすべてのツールが1つのメタストアを共有している場合、各ツールのユーザーは別のツールで作成されたデータにすぐにアクセスできます。ロードまたは転送の手順は必要ありません。

処理状態をキャプチャして共有を有効にします

HCatalogは分析結果を公開できます。そのため、他のプログラマは「REST」経由で分析プラットフォームにアクセスできます。あなたが公開しているスキーマは、他のデータサイエンティストにも役立ちます。他のデータサイエンティストは、あなたの発見を後続の発見への入力として使用します。

Hadoopをすべてと統合する

処理およびストレージ環境としてのHadoopは、企業に多くの機会をもたらします。ただし、採用を促進するには、既存のツールと連携して機能を強化する必要があります。 Hadoopは、分析プラットフォームへの入力として機能するか、運用データストアおよびWebアプリケーションと統合する必要があります。組織は、まったく新しいツールセットを学ぶ必要なく、Hadoopの価値を享受する必要があります。 RESTサービスは、使い慣れたAPIとSQLに似た言語で企業にプラットフォームを提供します。エンタープライズデータ管理システムはHCatalogを使用して、Hadoopプラットフォームとより深く統合します。

HCatalogアーキテクチャ

次の図は、HCatalogの全体的なアーキテクチャを示しています。

アーキテクチャ

HCatalogは、 SerDe （serializer-deserializer）を書き込むことができる任意の形式のファイルの読み取りと書き込みをサポートしています。デフォルトでは、HCatalogはRCFile、CSV、JSON、SequenceFile、およびORCファイル形式をサポートしています。カスタム形式を使用するには、InputFormat、OutputFormat、およびSerDeを提供する必要があります。

HCatalogはHiveメタストアの上に構築され、HiveのDDLを組み込みます。 HCatalogは、PigおよびMapReduceの読み取りおよび書き込みインターフェイスを提供し、Hiveのコマンドラインインターフェイスを使用して、データ定義およびメタデータ探索コマンドを発行します。

Hcatalog-introduction

目次