Dwh-data-marting
データウェアハウジング-データマーティング
データマートが必要な理由
以下は、データマートを作成する理由です。
- *アクセス制御戦略*を課すためにデータを分割する
- スキャンするデータの量を減らして、クエリを高速化します。
- データを異なるハードウェアプラットフォームにセグメント化する。
- ユーザーアクセスツールに適した形式でデータを構造化します。
注-データマーティングの運用コストが非常に高くなる可能性があるため、他の理由でデータマートを使用しないでください。 データマーティングの前に、データマーティング戦略が特定のソリューションに適していることを確認してください。
費用対効果の高いデータマーティング
以下の手順に従って、データマーティングの費用対効果を高めます-
- 機能分割を特定する
- ユーザーアクセスツールの要件を特定する
- アクセス制御の問題を特定する
機能分割を特定する
このステップでは、組織に自然な機能分割があるかどうかを判断します。 部門の分割を探し、部門が情報を使用する方法が組織の他の部分から隔離される傾向があるかどうかを判断します。 例を見てみましょう。
各小売商が製品グループの売上を最大化する責任を負う小売組織を考えてみましょう。 このため、以下は貴重な情報です-
- 毎日の販売取引
- 毎週の売上予測
- 毎日の在庫ポジション
- 毎日の在庫移動
マーチャントが扱っていない製品に関心がないため、データマーティングは、関心のある製品グループが扱うデータのサブセットです。 次の図は、さまざまなユーザーのデータマーティングを示しています。
機能的な分割を決定する際に考慮すべき問題を以下に示します-
- 部門の構造は変更される場合があります。
- 製品は、ある部門から別の部門に切り替える場合があります。
- 商人は、他の製品の販売傾向を照会して、何が起こっているかを分析できます 販売に。
注-データマートを使用するビジネス上の利点と技術的な実現可能性を判断する必要があります。
ユーザーアクセスツールの要件を特定する
内部データ構造を必要とする*ユーザーアクセスツール*をサポートするには、データマートが必要です。 このような構造のデータは、データウェアハウスの制御外ですが、定期的にデータを取り込み、更新する必要があります。
ソースシステムから直接入力するツールもありますが、そうでないツールもあります。 したがって、ツールの範囲外の追加要件を将来的に特定する必要があります。
注-すべてのアクセスツールでデータの一貫性を確保するために、データウェアハウスからデータを直接入力するのではなく、各ツールに独自のデータマートが必要です。
アクセス制御の問題を特定する
許可されたユーザーのみがデータにアクセスできるようにするには、プライバシールールが必要です。 たとえば、リテールバンキング機関のデータウェアハウスでは、すべてのアカウントが同じ法人に属していることが保証されます。 プライバシー法により、特定の銀行が所有していない情報へのアクセスを完全に禁止することができます。
データマートを使用すると、データウェアハウス内でデータセグメントを物理的に分離することにより、完全な壁を構築できます。 起こりうるプライバシーの問題を回避するために、詳細データをデータウェアハウスから削除できます。 各法人のデータマートを作成し、詳細なアカウントデータとともにデータウェアハウス経由でロードできます。
データマートの設計
データマートは、データウェアハウス内のスターフレークスキーマの小さいバージョンとして設計し、データウェアハウスのデータベース設計と一致させる必要があります。 データベースインスタンスの制御を維持するのに役立ちます。
サマリーは、データウェアハウス内で設計されたのと同じ方法でマーティングされたデータです。 サマリーテーブルは、スターフレークスキーマのすべてのディメンションデータを利用するのに役立ちます。
データマーティングのコスト
データマーティングのコスト指標は次のとおりです-
- ハードウェアとソフトウェアのコスト
- ネットワークアクセス
- 時間枠の制約
ハードウェアとソフトウェアのコスト
データマートは同じハードウェア上に作成されますが、追加のハードウェアとソフトウェアが必要です。 ユーザークエリを処理するには、追加の処理能力とディスクストレージが必要です。 詳細データとデータマートがデータウェアハウス内に存在する場合、複製されたデータを保存および管理するための追加コストが発生します。
注-データマーティングは集約よりも高価なので、代替戦略としてではなく、追加戦略として使用する必要があります。
ネットワークアクセス
データマートはデータウェアハウスとは異なる場所にある可能性があるため、LANまたはWANが*データマートロードプロセス内で転送されるデータボリュームを処理する能力を持っていることを確認する必要があります。
時間枠の制約
データマートのロードプロセスが使用可能な時間枠に食い込む程度は、変換の複雑さと出荷されるデータボリュームによって異なります。 可能なデータマートの数の決定は、次の要素に依存します-
- ネットワーク容量。
- 利用可能な時間枠
- 転送されるデータの量
- データをデータマートに挿入するために使用されるメカニズム