Dwh-architecture
データウェアハウジング-アーキテクチャ
この章では、データウェアハウスの設計とアーキテクチャのデータウェアハウスのビジネス分析フレームワークについて説明します。
ビジネス分析フレームワーク
ビジネスアナリストは、データウェアハウスから情報を取得してパフォーマンスを測定し、市場の他のビジネスホルダーに勝つために重要な調整を行います。 データウェアハウスを持つことには、次の利点があります-
- データウェアハウスは情報を迅速かつ効率的に収集できるため、ビジネスの生産性を向上させることができます。
- データウェアハウスは、顧客とアイテムの一貫したビューを提供するため、顧客関係の管理に役立ちます。
- データウェアハウスは、傾向、長期にわたるパターンを一貫した信頼性の高い方法で追跡することにより、コストの削減にも役立ちます。
効果的で効率的なデータウェアハウスを設計するには、ビジネスニーズを理解して分析し、*ビジネス分析フレームワーク*を構築する必要があります。 データウェアハウスの設計に関しては、各人が異なる見解を持っています。 これらのビューは次のとおりです-
- トップダウンビュー-このビューでは、データウェアハウスに必要な関連情報を選択できます。
- データソースビュー-このビューには、運用システムによってキャプチャ、保存、および管理されている情報が表示されます。
- データウェアハウスビュー-このビューには、ファクトテーブルとディメンションテーブルが含まれます。 データウェアハウス内に格納されている情報を表します。
- ビジネスクエリビュー-エンドユーザーの視点からのデータのビューです。
3層データウェアハウスアーキテクチャ
通常、データウェアハウスは3層アーキテクチャを採用しています。 以下は、データウェアハウスアーキテクチャの3つの層です。
- *最下層-アーキテクチャの最下層は、データウェアハウスデータベースサーバーです。 これはリレーショナルデータベースシステムです。 バックエンドのツールとユーティリティを使用して、データを最下層に送ります。 これらのバックエンドツールとユーティリティは、抽出、クリーン、ロード、およびリフレッシュ機能を実行します。
- 中間層-中間層には、次のいずれかの方法で実装できるOLAPサーバーがあります。
- 拡張リレーショナルデータベース管理システムであるリレーショナルOLAP(ROLAP)による。 ROLAPは、多次元データの操作を標準のリレーショナル操作にマップします。
- 多次元OLAP(MOLAP)モデル。多次元データと操作を直接実装します。
- 最上層-この層はフロントエンドクライアント層です。 このレイヤーには、クエリツールとレポートツール、分析ツール、データマイニングツールが含まれています。
次の図は、データウェアハウスの3層アーキテクチャを示しています-
データウェアハウスモデル
データウェアハウスアーキテクチャの観点から、次のデータウェアハウスモデルがあります-
- 仮想倉庫
- データ市場
- エンタープライズウェアハウス
仮想倉庫
運用データウェアハウスのビューは、仮想ウェアハウスと呼ばれます。 仮想倉庫の構築は簡単です。 仮想倉庫を構築するには、稼働中のデータベースサーバーに過剰な容量が必要です。
データ市場
データマートには、組織全体のデータのサブセットが含まれます。 このデータのサブセットは、組織の特定のグループにとって貴重です。
つまり、データマートには特定のグループに固有のデータが含まれていると主張できます。 たとえば、マーケティングデータマートには、アイテム、顧客、および販売に関連するデータが含まれる場合があります。 データマートは対象に限定されます。
データマートについて覚えておくべき点-
- ウィンドウベースまたはUnix/Linuxベースのサーバーは、データマートを実装するために使用されます。 これらは低コストのサーバーに実装されています。
- 実装データマートサイクルは短期間、つまり数か月または数年ではなく数週間で測定されます。
- データマートのライフサイクルは、計画と設計が組織全体に及ばない場合、長期的には複雑になる場合があります。
- データマートのサイズは小さいです。
- データマートは部門ごとにカスタマイズされます。
- データマートのソースは、部門ごとに構造化されたデータウェアハウスです。
- データマートは柔軟です。
エンタープライズウェアハウス
- エンタープライズウェアハウスは、組織全体にわたるすべての情報とサブジェクトを収集します
- 企業全体のデータ統合を提供します。
- データは、運用システムと外部の情報プロバイダーから統合されます。
- この情報は、数ギガバイトから数百ギガバイト、テラバイト以上までさまざまです。
ロードマネージャー
このコンポーネントは、プロセスの抽出とロードに必要な操作を実行します。
ロードマネージャーのサイズと複雑さは、データウェアハウスごとのソリューションによって異なります。
ロードマネージャーのアーキテクチャ
ロードマネージャは、次の機能を実行します-
- ソースシステムからデータを抽出します。
- 抽出したデータを一時データストアに高速でロードします。
- データウェアハウスの構造に類似した構造への簡単な変換を実行します。
ソースからデータを抽出する
データは、運用データベースまたは外部情報プロバイダーから抽出されます。 ゲートウェイは、データの抽出に使用されるアプリケーションプログラムです。 基礎となるDBMSによってサポートされ、クライアントプログラムがサーバーで実行されるSQLを生成できるようにします。 Open Database Connection(ODBC)、Java Database Connection(JDBC)はゲートウェイの例です。
高速負荷
- 総負荷ウィンドウを最小限に抑えるために、データを可能な限り高速でウェアハウスにロードする必要があります。
- 変換は、データ処理の速度に影響します。
- 変換とチェックを適用する前に、データをリレーショナルデータベースにロードする方がより効果的です。
- ゲートウェイテクノロジーは、大量のデータが含まれる場合にパフォーマンスが低下する傾向があるため、適切でないことが判明しています。
単純な変換
ロード中に、単純な変換を実行するために必要になる場合があります。 これが完了すると、複雑なチェックを行うことができます。 次のチェックを実行する必要があるEPOS販売トランザクションをロードするとします。
- ウェアハウス内で不要なすべての列を取り除きます。
- すべての値を必要なデータ型に変換します。
倉庫マネージャー
倉庫管理者は倉庫管理プロセスを担当します。 サードパーティのシステムソフトウェア、Cプログラム、およびシェルスクリプトで構成されています。
倉庫管理者の規模と複雑さは、特定のソリューションによって異なります。
Warehouse Managerのアーキテクチャ
倉庫管理者には以下が含まれます-
- 制御プロセス
- ストアドプロシージャまたはC with SQL
- バックアップ/リカバリツール
- SQLスクリプト
Warehouse Managerによって実行される操作
- ウェアハウス管理者は、データを分析して一貫性および参照整合性チェックを実行します。
- 基本データに対してインデックス、ビジネスビュー、パーティションビューを作成します。
- 新しい集計を生成し、既存の集計を更新します。 正規化を生成します。
- ソースデータを変換し、公開されたデータウェアハウスにマージします。
- データウェアハウスのデータをバックアップします。
- キャプチャされた寿命の終わりに達したデータをアーカイブします。
注-ウェアハウスマネージャーは、クエリプロファイルを分析して、インデックスと集計が適切かどうかを判断します。
クエリマネージャー
- クエリマネージャーは、適切なテーブルにクエリを送信する責任があります。
- クエリを適切なテーブルに転送することにより、クエリと応答生成の速度を上げることができます。
- クエリマネージャは、ユーザーが提示したクエリの実行をスケジュールする役割を果たします。
Query Managerのアーキテクチャ
次のスクリーンショットは、クエリマネージャーのアーキテクチャを示しています。 次のものが含まれます。
- CツールまたはRDBMSを介したクエリリダイレクト
- ストアドプロシージャ
- クエリ管理ツール
- CツールまたはRDBMSを介したクエリスケジューリング
- サードパーティソフトウェアを介したクエリスケジューリング
詳細な情報
詳細情報はオンラインで保持されるのではなく、次の詳細レベルに集約されてからテープにアーカイブされます。 データウェアハウスの詳細情報部分は、スターフレークスキーマに詳細情報を保持します。 集約データを補足するために、詳細情報がデータウェアハウスにロードされます。
次の図は、詳細な情報が保存されている場所とその使用方法を視覚的に示しています。
注-ディスクストレージを最小限に抑えるために詳細情報をオフラインで保持する場合は、アーカイブする前にデータが抽出され、クリーンアップされ、スターフレークスキーマに変換されていることを確認する必要があります。
要約情報
概要情報は、事前定義された集計を格納するデータウェアハウスの一部です。 これらの集計は、ウェアハウスマネージャーによって生成されます。 要約情報は一時的なものとして扱う必要があります。 変化するクエリプロファイルに対応するために、外出先で変更します。
概要情報に関する注意点は次のとおりです-
- 要約情報は、一般的なクエリのパフォーマンスを高速化します。
- 運用コストが増加します。
- 新しいデータがデータウェアハウスに読み込まれるたびに更新する必要があります。
- 詳細情報から新たに生成できるため、バックアップされていない可能性があります。