Apache Tajo-はじめに

分散データウェアハウスシステム

データウェアハウスは、トランザクション処理ではなくクエリと分析用に設計されたリレーショナルデータベースです。これは、サブジェクト指向の統合された時変データの不揮発性コレクションです。このデータは、アナリストが組織内で情報に基づいた意思決定を行うのに役立ちますが、リレーショナルデータの量は日々増加しています。

課題を克服するために、分散データウェアハウスシステムは、オンライン分析処理（OLAP）を目的として、複数のデータリポジトリ間でデータを共有します。各データウェアハウスは、1つ以上の組織に属する場合があります。ロードバランシングとスケーラビリティを実行します。メタデータは複製され、一元的に配布されます。

Apache Tajoは、Hadoop分散ファイルシステム（HDFS）をストレージレイヤーとして使用し、MapReduceフレームワークの代わりに独自のクエリ実行エンジンを備えた分散データウェアハウスシステムです。

HadoopでのSQLの概要

Hadoopは、分散環境でビッグデータを保存および処理できるオープンソースのフレームワークです。非常に高速で強力です。ただし、Hadoopのクエリ機能は限られているため、HadoopのSQLを使用してパフォーマンスをさらに向上させることができます。これにより、ユーザーは簡単なSQLコマンドを使用してHadoopと対話できます。

HadoopアプリケーションでのSQLの例には、Hive、Impala、Drill、Presto、Spark、HAWQ、Apache Tajoなどがあります。

Apache Tajoとは

Apache Tajoは、リレーショナルおよび分散データ処理フレームワークです。低遅延でスケーラブルなアドホッククエリ分析用に設計されています。

Tajoは、標準SQLおよびさまざまなデータ形式をサポートしています。ほとんどのTajoクエリは、変更することなく実行できます。
Tajoは、失敗したタスクと拡張可能なクエリ書き換えエンジンの再起動メカニズムにより、*フォールトトレランス*を備えています。
Tajoは、必要な* ETL（変換およびロードプロセスの抽出）*操作を実行して、HDFSに格納されている大きなデータセットを要約します。 Hive/Pigの代替選択肢です。

Tajoの最新バージョンは、JavaプログラムおよびOracleやPostGreSQLなどのサードパーティデータベースとの接続性が向上しています。

Apache Tajoの機能

Apache Tajoには次の機能があります-

優れたスケーラビリティと最適化されたパフォーマンス
低遅延
ユーザー定義関数
行/列ストレージ処理フレームワーク。
HiveQLおよびHive MetaStoreとの互換性
シンプルなデータフローと簡単なメンテナンス。

Apache Tajoの利点

Apache Tajoには次の利点があります-

使いやすい
簡素化されたアーキテクチャ
コストベースのクエリ最適化
ベクトル化されたクエリ実行計画
迅速な配達
シンプルなI/Oメカニズムで、さまざまなタイプのストレージをサポートします。
耐障害性

Apache Tajoのユースケース

以下は、Apache Tajoの使用例の一部です-

データウェアハウジングと分析

韓国のSK Telecom会社は、1.7テラバイトのデータに対してTajoを実行し、HiveやImpalaよりも高速にクエリを完了することができることを発見しました。

データ発見

韓国の音楽ストリーミングサービスMelonは、分析処理にTajoを使用しています。 TajoはETL（extract-transform-loadプロセス）ジョブをHiveの1.5〜10倍高速に実行します。

ログ分析

韓国に本拠を置くBluehole Studioは、ファンタジーマルチプレイヤーオンラインゲームであるTERAを開発しました。同社は、ゲームログの分析とサービス品質の中断の主な原因の発見にTajoを使用しています。

ストレージとデータ形式

Apache Tajoは次のデータ形式をサポートしています-

JSON
テキストファイル（CSV）
寄木細工
シーケンスファイル
AVRO
プロトコルバッファ
Apache Orc

Tajoは、次のストレージ形式をサポートしています-

HDFS
JDBC
Amazon S3
Apache HBase
エラスティックサーチ

Apache-tajo-introduction

目次