Data-mining-dm-evaluation
提供:Dev Guides
データマイニング-評価
データウェアハウス
データウェアハウスは、管理者の意思決定プロセスをサポートするために次の特性を示します-
- Subject Oriented -データウェアハウスは、組織の継続的な運用ではなく、サブジェクトに関する情報を提供するため、サブジェクト指向です。 これらのサブジェクトには、製品、顧客、サプライヤー、売上、収益などがあります。 データウェアハウスは、進行中の運用に焦点を当てるのではなく、意思決定のためのデータのモデリングと分析に焦点を当てます。
- 統合-データウェアハウスは、リレーショナルデータベース、フラットファイルなどの異種ソースからのデータの統合によって構築されます。 この統合により、データの効果的な分析が強化されます。
- Time Variant -データウェアハウスで収集されたデータは、特定の期間で識別されます。 データウェアハウスのデータは、履歴の観点から情報を提供します。
- 不揮発性-不揮発性とは、新しいデータが追加されても以前のデータが削除されないことを意味します。 データウェアハウスは運用データベースから分離されているため、運用データベースの頻繁な変更はデータウェアハウスに反映されません。
データウェアハウス
データウェアハウジングは、データウェアハウスを構築して使用するプロセスです。 データウェアハウスは、複数の異種ソースからのデータを統合することにより構築されます。 分析レポート、構造化クエリやアドホッククエリ、意思決定をサポートします。
データウェアハウジングには、データクリーニング、データ統合、およびデータ統合が含まれます。 異種データベースを統合するには、次の2つのアプローチがあります-
- クエリ駆動型アプローチ
- 駆動型アプローチの更新
クエリ駆動型アプローチ
これは、異種データベースを統合する従来のアプローチです。 このアプローチは、複数の異種データベースの上にラッパーとインテグレーターを構築するために使用されます。 これらのインテグレーターは、メディエーターとも呼ばれます。
クエリ駆動型アプローチのプロセス
- クエリがクライアント側に発行されると、メタデータディクショナリは、関連する個々の異種サイトに適したクエリにクエリを変換します。
- 現在、これらのクエリはマップされ、ローカルクエリプロセッサに送信されます。
- 異種サイトからの結果は、グローバルな回答セットに統合されます。
デメリット
このアプローチには、次の欠点があります-
- クエリ駆動型アプローチでは、複雑な統合プロセスとフィルタリングプロセスが必要です。
- 頻繁なクエリでは非常に非効率的で非常に高価です。
- このアプローチは、集計を必要とするクエリにはコストがかかります。
更新主導のアプローチ
今日のデータウェアハウスシステムは、前述の従来のアプローチではなく、更新主導のアプローチを採用しています。 更新主導のアプローチでは、複数の異種ソースからの情報が事前に統合され、ウェアハウスに保存されます。 この情報は、直接のクエリと分析に利用できます。
利点
このアプローチには、次の利点があります-
- このアプローチは、高いパフォーマンスを提供します。
- データは、セマンティックデータストアに事前にコピー、処理、統合、注釈付け、要約、および再構築できます。
クエリ処理には、ローカルソースでの処理とのインターフェイスは必要ありません。
データウェアハウジング(OLAP)からデータマイニング(OLAM)へ
オンライン分析マイニングは、多次元データベースのデータマイニングおよびマイニングの知識を備えたオンライン分析処理と統合されます。 これは、OLAPとOLAMの両方の統合を示す図です-
OLAMの重要性
OLAMは次の理由で重要です-
- データウェアハウスの高品質データ-統合された一貫性のあるクリーンなデータを処理するには、データマイニングツールが必要です。 これらの手順は、データの前処理に非常にコストがかかります。 このような前処理によって構築されたデータウェアハウスは、OLAPおよびデータマイニングの高品質データの貴重なソースです。
- データウェアハウスを取り巻く利用可能な情報処理インフラストラクチャ-情報処理インフラストラクチャとは、複数の異種データベース、Webアクセスおよびサービス施設、レポート、OLAP分析ツールへのアクセス、統合、統合、変換を指します。
- * OLAPベースの探索的データ分析*-効果的なデータマイニングには探索的データ分析が必要です。 OLAMは、データのさまざまなサブセットおよび異なる抽象化レベルでのデータマイニング機能を提供します。
- データマイニング機能のオンライン選択-OLAPと複数のデータマイニング機能およびオンライン分析マイニングを統合することにより、ユーザーは必要なデータマイニング機能を選択し、データマイニングタスクを動的に交換する柔軟性を得ることができます。