データウェアハウジング-システムプロセス

運用データベースに適用される操作の数は固定されており、正規化されたデータを使用、*テーブルを小さく保持*などの明確に定義された手法があります。これらの手法は、ソリューションの提供に適しています。しかし、意思決定支援システムの場合、今後実行する必要があるクエリと操作はわかりません。したがって、運用データベースに適用される手法は、データウェアハウスには適していません。

この章では、Unixやリレーショナルデータベースなどのトップオープンシステムテクノロジーでデータウェアハウジングソリューションを構築する方法について説明します。

データウェアハウスのプロセスフロー

データウェアハウスに寄与する4つの主要なプロセスがあります-

データを抽出してロードします。
データのクリーニングと変換。
データをバックアップおよびアーカイブします。
クエリを管理し、それらを適切なデータソースに転送します。

プロセスフロー

抽出およびロードプロセス

データ抽出は、ソースシステムからデータを取得します。データロードは、抽出されたデータを取得してデータウェアハウスにロードします。

注意-データウェアハウスにデータをロードする前に、外部ソースから抽出した情報を再構築する必要があります。

プロセスの制御

プロセスの制御には、データ抽出の開始時期の決定とデータの整合性チェックが含まれます。プロセスを制御することにより、ツール、ロジックモジュール、およびプログラムが正しい順序で正しいタイミングで実行されるようになります。

抽出を開始するタイミング

データは、抽出時に一貫した状態である必要があります。つまり、データウェアハウスは、ユーザーに対して単一の一貫したバージョンの情報を表す必要があります。

たとえば、電気通信部門の顧客プロファイリングデータウェアハウスでは、水曜日の午後8時に顧客データベースから顧客のリストを、火曜日の午後8時までの顧客サブスクリプションイベントとマージすることは非論理的です。これは、関連するサブスクリプションがない顧客を見つけることを意味します。

データの読み込み

データを抽出した後、一時データストアにロードされ、そこでクリーンアップされて一貫性が保たれます。

注-整合性チェックは、すべてのデータソースが一時データストアにロードされた場合にのみ実行されます。

クリーンおよび変換プロセス

データが抽出され、一時データストアにロードされたら、クリーニングと変換を実行します。ここにクリーニングと変換に関与するステップのリストがあります-

ロードされたデータをクリーンにし、構造に変換します
データを分割する
集約

ロードされたデータをクリーンにし、構造に変換します

ロードされたデータのクリーニングと変換は、クエリの高速化に役立ちます。データを一貫性のあるものにすることで実現できます-

それ自体の中。
同じデータソース内の他のデータと。
他のソースシステムのデータを使用します。
ウェアハウスに存在する既存のデータを使用します。

変換では、ソースデータを構造に変換します。データを構造化すると、クエリのパフォーマンスが向上し、運用コストが削減されます。データウェアハウスに含まれるデータは、パフォーマンス要件をサポートし、継続的な運用コストを制御するために変換する必要があります。

データを分割する

ハードウェアのパフォーマンスを最適化し、データウェアハウスの管理を簡素化します。ここでは、各ファクトテーブルを複数の個別のパーティションに分割します。

集約

一般的なクエリを高速化するには、集計が必要です。集約は、最も一般的なクエリが詳細データのサブセットまたは集約を分析するという事実に依存しています。

データのバックアップとアーカイブ

データの損失、ソフトウェアの障害、またはハードウェアの障害が発生した場合にデータを回復するには、定期的なバックアップを維持する必要があります。アーカイブには、必要なときにすぐに復元できる形式でシステムから古いデータを削除することが含まれます。

たとえば、小売販売分析データウェアハウスでは、最新の6か月のデータをオンラインで保持しながら、3年間データを保持する必要がある場合があります。このようなシナリオでは、多くの場合、今年と昨年の月ごとの比較を実行できる必要があります。この場合、一部のデータをアーカイブから復元する必要があります。

クエリ管理プロセス

このプロセスは、次の機能を実行します-

クエリを管理します。
querisの実行時間を短縮するのに役立ちます。
クエリを最も効果的なデータソースに誘導します。
すべてのシステムソースが最も効果的な方法で使用されるようにします。
実際のクエリプロファイルを監視します。

このプロセスで生成された情報は、生成する集計を決定するために倉庫管理プロセスによって使用されます。通常、このプロセスは、データウェアハウスへの情報の定期的なロード中には機能しません。

Dwh-system-processes

目次