Apache-presto-overview
Apache Presto-概要
データ分析とは、生データを分析して関連情報を収集し、意思決定を改善するプロセスです。 主に多くの組織でビジネス上の意思決定を行うために使用されます。 ビッグデータ分析には大量のデータが含まれ、このプロセスは非常に複雑であるため、企業はさまざまな戦略を使用します。
たとえば、Facebookはデータ主導型で世界最大のデータウェアハウス企業の1つです。 Facebookウェアハウスデータは、大規模な計算のためにHadoopに保存されます。 その後、ウェアハウスのデータがペタバイトに増加したとき、彼らは低遅延で新しいシステムを開発することに決めました。 2012年に、Facebookチームのメンバーは、ペタバイトのデータでも迅速に動作するインタラクティブなクエリ分析のために*「Presto」*を設計しました。
Apache Prestoとは何ですか?
Apache Prestoは、低レイテンシおよびインタラクティブなクエリ分析向けに最適化された分散型の並列クエリ実行エンジンです。 Prestoはクエリを簡単に実行し、ギガバイトからペタバイトにさえダウンタイムなしでスケーリングします。
1つのPrestoクエリで、HDFS、MySQL、Cassandra、Hiveなどの複数のソースからのデータを処理できます。 PrestoはJavaで構築されており、他のデータインフラストラクチャコンポーネントと簡単に統合できます。 Prestoは強力で、Airbnb、DropBox、Groupon、Netflixなどの大手企業が採用しています。
プレスト-機能
プレストには、次の機能が含まれています-
- シンプルで拡張可能なアーキテクチャ。
- プラグ可能なコネクタ-Prestoは、クエリ用のメタデータとデータを提供するプラグ可能なコネクタをサポートしています。
- パイプライン化された実行-不要なI/Oレイテンシのオーバーヘッドを回避します。
- ユーザー定義関数-アナリストはカスタムユーザー定義関数を作成して、簡単に移行できます。
- ベクトル化された列処理。
プレスト-利点
Apache Prestoが提供する利点のリストは次のとおりです-
- 特殊なSQL操作
- インストールとデバッグが簡単
- シンプルなストレージ抽象化
- 低レイテンシでペタバイトのデータを迅速にスケーリング
Presto-アプリケーション
Prestoは、今日の最高の産業用アプリケーションのほとんどをサポートしています。 注目すべきアプリケーションをいくつか見てみましょう。
- Facebook -Facebookはデータ分析のニーズに応えてPrestoを構築しました。 Prestoは、大量のデータを簡単にスケーリングします。
- Teradata -Teradataは、ビッグデータ分析およびデータウェアハウジングでエンドツーエンドのソリューションを提供します。 PrestoへのTeradataの貢献により、より多くの企業がすべての分析ニーズを簡単に実現できます。
- Airbnb -Prestoは、Airbnbデータインフラストラクチャの不可欠な部分です。 さて、何百人もの従業員が毎日このテクノロジーを使用してクエリを実行しています。
なぜプレストなのか?
Prestoは標準のANSI SQLをサポートしているため、データアナリストや開発者にとって非常に簡単です。 Javaで構築されていますが、メモリの割り当てとガベージコレクションに関連するJavaコードの典型的な問題を回避します。 Prestoには、Hadoopに優しいコネクタアーキテクチャがあります。 ファイルシステムを簡単にプラグインできます。
Prestoは複数のHadoopディストリビューションで実行されます。 さらに、Prestoは、Hadoopプラットフォームから、Cassandra、リレーショナルデータベース、またはその他のデータストアにクエリを実行できます。 このクロスプラットフォーム分析機能により、Prestoユーザーはギガバイトからペタバイトのデータまで最大のビジネス価値を引き出すことができます。