Cognos-data-warehouse-overview
データウェアハウス-概要
データウェアハウスは、*複数の異種データソース*からのデータで構成され、分析レポートおよび意思決定に使用されます。 データウェアハウスは、さまざまなデータソースやアプリケーションからデータが保存される中心的な場所です。
データウェアハウスという用語は、1990年にBill Inmomによって初めて考案されました。 データウェアハウスは、常に運用データベースとは別に保管されます。
DWシステムのデータは、次のような運用トランザクションシステムからロードされます-
- 売上高
- マーケティング
- HR
- SCMなど
情報処理のためにDWシステムにロードされる前に、運用データストアまたはその他の変換を通過する場合があります。
データウェアハウスは、情報のレポートと分析に使用され、履歴データと現在のデータの両方を保存します。 DWシステムのデータは分析レポートに使用され、後でビジネスアナリスト、セールスマネージャー、またはナレッジワーカーが意思決定に使用します。
上の画像では、データが*複数の異種データ*ソースからデータウェアハウスに送信されていることがわかります。 データウェアハウスの一般的なデータソースには、以下が含まれます-
- 運用データベース
- SAPおよび非SAPアプリケーション
- フラットファイル(xls、csv、txtファイル)
データウェアハウスのデータには、分析レポート、データマイニング、分析のためにBI(ビジネスインテリジェンス)ユーザーがアクセスします。 これは、ビジネスユーザー、セールスマネージャー、アナリストが将来の戦略を定義するための意思決定に使用されます。
データウェアハウスの機能
これは、1つ以上の異種データソースからデータが保存される中央データリポジトリです。 DWシステムは、現在のデータと履歴データの両方を保存します。 通常、DWシステムは5〜10年の履歴データを保存します。 DWシステムは、常に操作可能なトランザクションシステムから分離されています。
DWシステムのデータは、四半期ごとの比較から年次の比較まで、さまざまなタイプの分析レポートに使用されます。
データウェアハウスと運用データベース
データウェアハウスと運用データベースの違いは次のとおりです-
- *オペレーションシステム*は、ユーザーレコードの更新、レコードの検索などの既知のワークロードおよびトランザクション向けに設計されています。 ただし、データウェアハウストランザクションはより複雑で、一般的な形式のデータを提供します。
- *オペレーションシステム*には組織の現在のデータが含まれ、データウェアハウスには通常履歴データが含まれます。
- Operational Database は、複数のトランザクションの並列処理をサポートします。 データベースの一貫性を維持するには、同時実行制御とリカバリのメカニズムが必要です。
- Operational Database クエリでは、操作(挿入、削除、更新)の読み取りと変更ができますが、OLAPクエリでは、保存されたデータの読み取り専用アクセスのみが必要です(Selectステートメント)。
データウェアハウスのアーキテクチャ
データウェアハウジングには、データクリーニング、データ統合、およびデータ統合が含まれます。 データウェアハウスには3層アーキテクチャがあります-
データソースレイヤー
データがデータウェアハウスに到達する方法を定義します。 これには、さまざまなデータソースと運用トランザクションシステム、フラットファイル、アプリケーションなどが含まれます。
統合層
オペレーショナルデータストアとステージングエリアで構成されます。 ステージング領域は、データクレンジング、データ変換、およびさまざまなソースからデータウェアハウスへのデータのロードを実行するために使用されます。 異なるタイムゾーンで複数のデータソースを抽出できるため、ステージング領域を使用してデータを保存し、後でデータに変換を適用します。
プレゼンテーション層
これは、エンドユーザーがBIレポートを実行するために使用されます。 DWシステムのデータには、BIユーザーがアクセスし、レポートと分析に使用します。
次の図は、データウェアハウスシステムの一般的なアーキテクチャを示しています。
データウェアハウスの特性
以下は、データウェアハウスの重要な特徴です-
- Subject Oriented -DWシステムでは、データは、株式プラン、株式、ローンなどのアプリケーションではなく、ビジネスサブジェクトによって分類および保存されます。
- 統合-複数のデータソースからのデータがデータウェアハウスに統合されています。
- 非揮発性-データウェアハウスのデータは不揮発性です。 これは、データがDWシステムにロードされても、変更されないことを意味します。
- Time Variant -現在のデータのみを含むトランザクションシステムと比較して、DWシステムには履歴データが含まれます。 データウェアハウスでは、3か月、6か月、1年、5年などのデータを表示できます。
OLTPとOLAP
まず、OLTPは Online Transaction Processing を表し、OLAPは Online Analytical Processing を表します。
OLTPシステムには、INSERT、UPDATE、DELETEなどの多数の短いオンライントランザクションがあります。
一方、OLTPシステムでは、効果的な尺度は短いトランザクションの処理時間であり、非常に短いです。 マルチアクセス環境でデータの整合性を制御します。 OLTPシステムの場合、1秒あたりのトランザクション数が有効性を測定します。 OLTPデータウェアハウスシステムには、現在の詳細なデータが含まれており、エンティティモデル(3NF)のスキーマで維持されます。
例-
顧客レコードが毎日挿入、更新、削除される小売店の日常のトランザクションシステム。 より高速なクエリ処理を提供します。 OLTPデータベースには、詳細で最新のデータが含まれています。 OLTPデータベースの保存に使用されるスキーマは、エンティティモデルです。
OLAPシステムでは、トランザクションシステムに比べてトランザクションの数が少なくなります。 実行されるクエリは本質的に複雑であり、データの集約を伴います。
集約とは何ですか?
年(1行)、四半期(4行)、月(12行)などの集計データでテーブルを保存します。誰かが年ごとの比較を行う必要がある場合、1行のみが処理されます。 ただし、非集計テーブルでは、すべての行を比較します。 これは集約と呼ばれます。
合計、平均、最大、最小など、OLAPシステムで使用できるさまざまな集計関数があります。
例-
主な違い
これらは、OLAPシステムとOLTPシステムの主な違いです。
- インデックス-OLTPシステムにはインデックスがほとんどありませんが、OLAPシステムにはパフォーマンス最適化のためのインデックスが多数あります。
- 結合-OLTPシステムでは、多数の結合とデータが正規化されます。 ただし、OLAPシステムでは結合が少なくなり、非正規化されます。
- 集計-OLTPシステムでは、データは集計されませんが、OLAPデータベースではより多くの集計が使用されます。
- Normalization -OLTPシステムには正規化されたデータが含まれますが、OLAPシステムではデータは正規化されません。
データマートとデータウェアハウス
データマートは単一の機能領域に焦点を合わせ、データウェアハウスの最も単純な形式を表します。 Sales、Marketing、HR、Financeのデータを含むデータウェアハウスを考えます。 データマートは、営業やマーケティングなどの単一の機能分野に焦点を当てています。
上の画像では、データウェアハウスとデータマートの違いがわかります。
ファクト対ディメンション表
ファクトテーブルは、分析が実行されるメジャーを表します。 また、ディメンションキーの外部キーも含まれます。
例-すべての販売は事実です。
Cust Id | Prod Id | Time Id | Qty Sold |
---|---|---|---|
1110 | 25 | 2 | 125 |
1210 | 28 | 4 | 252 |
ディメンションテーブルは、ディメンションの特性を表します。 Customerディメンションには、Customer_Name、Phone_No、Sexなどを含めることができます。
Cust Id | Cust_Name | Phone | Sex |
---|---|---|---|
1110 | Sally | 1113334444 | F |
1210 | Adam | 2225556666 | M |