データマイニング-概要

情報産業には膨大な量のデータがあります。このデータは、有用な情報に変換されるまで役に立ちません。この膨大な量のデータを分析し、そこから有用な情報を抽出する必要があります。

実行する必要があるのは、情報の抽出だけではありません。データマイニングには、データクリーニング、データ統合、データ変換、データマイニング、パターン評価、データ表示などの他のプロセスも含まれます。これらすべてのプロセスが終了すると、この情報を不正検出、市場分析、生産管理、科学探査などの多くのアプリケーションで使用できるようになります。

データマイニングとは

データマイニングとは、膨大なデータセットから情報を抽出することです。つまり、データマイニングは、データから知識をマイニングする手順であると言えます。抽出された情報または知識は、次のアプリケーションのいずれかに使用することができます-

市場分析
不正検出
顧客維持
生産管理
科学探査

データマイニングアプリケーション

データマイニングは、次のドメインで非常に便利です-

市場分析と管理
企業分析とリスク管理
不正検出

これらとは別に、データマイニングは、生産管理、顧客維持、科学調査、スポーツ、占星術、インターネットWebサーフエイドの分野でも使用できます。

市場分析と管理

以下にリストされているのは、データマイニングが使用される市場のさまざまな分野です-

顧客プロファイリング-データマイニングは、どのような人々がどのような製品を購入するかを決定するのに役立ちます。
顧客要件の特定-データマイニングは、さまざまな顧客に最適な製品を特定するのに役立ちます。予測を使用して、新規顧客を引き付ける要因を見つけます。
クロスマーケット分析-データマイニングは、製品販売間の関連付け/相関を実行します。
ターゲットマーケティング-データマイニングは、関心、支出習慣、収入などの同じ特性を共有するモデル顧客のクラスターを見つけるのに役立ちます。
顧客の購入パターンの決定-データマイニングは、顧客の購入パターンの決定に役立ちます。
サマリー情報の提供-データマイニングにより、さまざまな多次元サマリーレポートが提供されます。

企業分析とリスク管理

データマイニングは、企業部門の以下の分野で使用されています-

財務計画と資産評価-キャッシュフロー分析と予測、資産を評価するための条件付き請求分析が含まれます。
リソース計画-リソースと支出の要約と比較が含まれます。
競争-競合他社と市場の方向性を監視することを含みます。

不正検出

データマイニングは、クレジットカードサービスや通信の分野でも詐欺を検出するために使用されます。詐欺電話では、通話の宛先、通話時間、時間帯、曜日などを見つけるのに役立ちます。また、予想される規範から逸脱するパターンを分析します。

データマイニング-タスク

データマイニングでは、マイニング可能なパターンの種類を扱います。マイニングするデータの種類に基づいて、データマイニングに関与する機能には2つのカテゴリがあります-

記述的
分類と予測

記述関数

説明関数は、データベース内のデータの一般的なプロパティを処理します。ここに説明的な関数のリストがあります-

クラス/概念の説明
頻繁なパターンのマイニング
協会のマイニング
相関のマイニング
クラスターのマイニング

クラス/概念の説明

クラス/コンセプトは、クラスまたは概念に関連付けられるデータを指します。たとえば、ある会社では、販売対象のアイテムのクラスにはコンピューターとプリンターが含まれ、顧客の概念には多額の支出者と予算の支出者が含まれます。このようなクラスまたは概念の説明は、クラス/コンセプトの説明と呼ばれます。これらの説明は、次の2つの方法で導出することができます-

データの特性-これは、調査中のクラスのデータを要約することを指します。調査中のこのクラスは、ターゲットクラスと呼ばれます。
データ差別-それは、事前定義されたグループまたはクラスを持つクラスのマッピングまたは分類を指します。

頻繁なパターンのマイニング

頻繁なパターンは、トランザクションデータで頻繁に発生するパターンです。ここに頻繁なパターンの種類のリストがあります-

頻繁なアイテムセット-牛乳やパンなど、頻繁に一緒に表示されるアイテムのセットを指します。
Frequent Subsequence -次のような頻繁に発生するパターンのシーケンスカメラを購入すると、メモリカードが続きます。
頻繁な下位構造-下位構造は、グラフ、ツリー、ラティスなどのさまざまな構造形式を指し、アイテムセットまたはサブシーケンスと組み合わせることができます。

協会のマイニング

関連付けは、小売販売で頻繁に一緒に購入されるパターンを識別するために使用されます。このプロセスは、データ間の関係を明らかにし、関連付けルールを決定するプロセスを指します。

たとえば、小売業者は、牛乳がパンと一緒に販売される時間の70％、ビスケットがパンと一緒に販売される時間の30％のみを示す関連付けルールを生成します。

相関のマイニング

これは、関連する属性値ペア間または2つのアイテムセット間の興味深い統計的相関関係を明らかにするために実行される一種の追加分析です。

クラスターのマイニング

クラスタは、類似した種類のオブジェクトのグループを指します。クラスター分析とは、互いに非常に類似しているが、他のクラスター内のオブジェクトとは大きく異なるオブジェクトのグループを形成することです。

分類と予測

分類は、データクラスまたは概念を記述するモデルを見つけるプロセスです。目的は、このモデルを使用して、クラスラベルが不明なオブジェクトのクラスを予測できるようにすることです。この派生モデルは、トレーニングデータのセットの分析に基づいています。派生モデルは、次の形式で提示することができます-

分類（IF-THEN）ルール
決定木
数式
ニューラルネットワーク

これらのプロセスに関与する機能のリストは次のとおりです-

分類-クラスラベルが不明なオブジェクトのクラスを予測します。その目的は、データクラスを記述および区別する派生モデルを見つけることです。または概念。派生モデルは、トレーニングデータの分析セットに基づいています。クラスラベルがよく知られているデータオブジェクト。
予測-クラスラベルではなく、欠落または利用できない数値データ値を予測するために使用されます。一般的に、回帰分析は予測に使用されます。予測は、利用可能なデータに基づいた分布傾向の識別にも使用できます。
外れ値分析-外れ値は、そうでないデータオブジェクトとして定義できます。利用可能なデータの一般的な動作またはモデルに準拠します。
進化分析-進化分析は、説明とモデルを指します動作が時間とともに変化するオブジェクトの規則性または傾向。

データマイニングタスクプリミティブ

データマイニングクエリの形式でデータマイニングタスクを指定できます。
このクエリはシステムへの入力です。
データマイニングクエリは、データマイニングタスクプリミティブの観点から定義されます。

注-これらのプリミティブを使用すると、データマイニングシステムと対話形式で通信できます。ここにデータマイニングタスクプリミティブのリストがあります-

マイニングするタスク関連データのセット。
採掘する知識の種類。
発見プロセスで使用される背景知識。
パターン評価のための興味深い尺度としきい値。
発見されたパターンを視覚化するための表現。

マイニングするタスク関連データのセット

これは、ユーザーが関心を持っているデータベースの部分です。この部分には次のものが含まれます-

データベース属性
対象のデータウェアハウスディメンション

採掘する知識の種類

実行される機能の種類を指します。これらの機能は-

特徴づけ
差別
関連付けと相関分析
分類
予測
クラスタリング
外れ値分析
進化分析

背景知識

背景知識により、複数の抽象化レベルでデータをマイニングできます。たとえば、概念階層は、抽象化の複数のレベルでデータをマイニングできるようにする背景知識の1つです。

パターン評価のための興味深い尺度としきい値

これは、知識発見のプロセスによって発見されたパターンを評価するために使用されます。さまざまな種類の知識に対して、さまざまな興味深い尺度があります。

発見されたパターンを視覚化するための表現

これは、検出されたパターンが表示されるフォームを指します。これらの表現には以下が含まれます。 −

規則
テーブル
チャート
グラフ
決定木
キューブ

データマイニング-問題

データマイニングは簡単なタスクではありません。使用されるアルゴリズムは非常に複雑になる可能性があり、データは常に1か所で利用できるとは限りません。さまざまな異種データソースから統合する必要があります。これらの要因もいくつかの問題を引き起こします。ここでこのチュートリアルでは、に関する主要な問題について説明します-

マイニング方法論とユーザーインタラクション
パフォーマンスの問題
多様なデータ型の問題

次の図は、主要な問題を説明しています。

データマイニングの問題

マイニング手法とユーザーインタラクションの問題

それは次の種類の問題を指します-

データベースでさまざまな種類の知識をマイニング-さまざまなユーザーがさまざまな種類の知識に興味を持っている場合があります。したがって、データマイニングでは、広範な知識発見タスクをカバーする必要があります。
複数レベルの抽象化での知識のインタラクティブマイニング-データマイニングプロセスは、ユーザーがパターンの検索に集中できるようにするため、インタラクティブである必要があり、返された結果に基づいてデータマイニングリクエストを提供および調整します
背景知識の組み込み-発見プロセスを導き、発見されたパターンを表現するために、背景知識を使用できます。背景知識を使用して、発見されたパターンを簡潔な用語だけでなく、複数の抽象化レベルで表現することもできます。
データマイニングクエリ言語とアドホックデータマイニング-ユーザーがアドホックマイニングタスクを記述できるデータマイニングクエリ言語は、データウェアハウスクエリ言語と統合し、効率的で柔軟なデータマイニングのために最適化する必要があります。
データマイニング結果のプレゼンテーションと視覚化-パターンが見つかったら、高レベルの言語と視覚的表現で表現する必要があります。これらの表現は簡単に理解できるはずです。
ノイズのあるデータや不完全なデータの処理-データの規則性をマイニングしながらノイズや不完全なオブジェクトを処理するには、データクリーニング方法が必要です。データクリーニング方法が存在しない場合、検出されたパターンの精度は低くなります。
パターン評価-発見されたパターンは、一般的な知識を表しているか、新規性に欠けているため、興味深いはずです。

パフォーマンスの問題

次のようなパフォーマンス関連の問題がある可能性があります-

データマイニングアルゴリズムの効率とスケーラビリティ-データベース内の大量のデータから情報を効果的に抽出するには、データマイニングアルゴリズムが効率的でスケーラブルでなければなりません。
並列、分散、インクリメンタルマイニングアルゴリズム-データベースの巨大なサイズ、データの広範囲な分散、データマイニング手法の複雑さなどの要因により、並列および分散データマイニングアルゴリズムの開発が促進されます。これらのアルゴリズムは、データをパーティションに分割し、さらに並列処理されます。次に、パーティションからの結果がマージされます。増分アルゴリズムは、データをゼロから再度マイニングせずにデータベースを更新します。

多様なデータ型の問題

リレーショナルおよび複雑なタイプのデータの処理-データベースには、複雑なデータオブジェクト、マルチメディアデータオブジェクト、空間データ、時間データなどが含まれる場合があります。 1つのシステムでこれらすべての種類のデータをマイニングすることはできません。
異種データベースおよびグローバル情報システムからのマイニング情報-データは、LANまたはWANのさまざまなデータソースで利用可能です。これらのデータソースは、構造化、半構造化、または非構造化のいずれでもかまいません。したがって、それらから知識をマイニングすると、データマイニングに課題が追加されます。

データマイニング-評価

データウェアハウス

データウェアハウスは、管理者の意思決定プロセスをサポートするために次の特性を示します-

Subject Oriented -データウェアハウスは、組織の継続的な運用ではなく、サブジェクトに関する情報を提供するため、サブジェクト指向です。これらのサブジェクトには、製品、顧客、サプライヤー、売上、収益などがあります。データウェアハウスは、進行中の運用に焦点を当てるのではなく、意思決定のためのデータのモデリングと分析に焦点を当てます。
統合-データウェアハウスは、リレーショナルデータベース、フラットファイルなどの異種ソースからのデータの統合によって構築されます。この統合により、データの効果的な分析が強化されます。
Time Variant -データウェアハウスで収集されたデータは、特定の期間で識別されます。データウェアハウスのデータは、履歴の観点から情報を提供します。
不揮発性-不揮発性とは、新しいデータが追加されても以前のデータが削除されないことを意味します。データウェアハウスは運用データベースから分離されているため、運用データベースの頻繁な変更はデータウェアハウスに反映されません。

データウェアハウス

データウェアハウジングは、データウェアハウスを構築して使用するプロセスです。データウェアハウスは、複数の異種ソースからのデータを統合することにより構築されます。分析レポート、構造化クエリやアドホッククエリ、意思決定をサポートします。

データウェアハウジングには、データクリーニング、データ統合、およびデータ統合が含まれます。異種データベースを統合するには、次の2つのアプローチがあります-

クエリ駆動型アプローチ
駆動型アプローチの更新

クエリ駆動型アプローチ

これは、異種データベースを統合する従来のアプローチです。このアプローチは、複数の異種データベースの上にラッパーとインテグレーターを構築するために使用されます。これらのインテグレーターは、メディエーターとも呼ばれます。

クエリ駆動型アプローチのプロセス

クエリがクライアント側に発行されると、メタデータディクショナリは、関連する個々の異種サイトに適したクエリにクエリを変換します。
現在、これらのクエリはマップされ、ローカルクエリプロセッサに送信されます。
異種サイトからの結果は、グローバルな回答セットに統合されます。

デメリット

このアプローチには、次の欠点があります-

クエリ駆動型アプローチでは、複雑な統合プロセスとフィルタリングプロセスが必要です。
頻繁なクエリでは非常に非効率的で非常に高価です。
このアプローチは、集計を必要とするクエリにはコストがかかります。

更新主導のアプローチ

今日のデータウェアハウスシステムは、前述の従来のアプローチではなく、更新主導のアプローチを採用しています。更新主導のアプローチでは、複数の異種ソースからの情報が事前に統合され、ウェアハウスに保存されます。この情報は、直接のクエリと分析に利用できます。

利点

このアプローチには、次の利点があります-

このアプローチは、高いパフォーマンスを提供します。
データは、セマンティックデータストアに事前にコピー、処理、統合、注釈付け、要約、および再構築できます。

クエリ処理には、ローカルソースでの処理とのインターフェイスは必要ありません。

データウェアハウジング（OLAP）からデータマイニング（OLAM）へ

オンライン分析マイニングは、多次元データベースのデータマイニングおよびマイニングの知識を備えたオンライン分析処理と統合されます。これは、OLAPとOLAMの両方の統合を示す図です-

OLAP to OLAM

OLAMの重要性

OLAMは次の理由で重要です-

データウェアハウスの高品質データ-統合された一貫性のあるクリーンなデータを処理するには、データマイニングツールが必要です。これらの手順は、データの前処理に非常にコストがかかります。このような前処理によって構築されたデータウェアハウスは、OLAPおよびデータマイニングの高品質データの貴重なソースです。
データウェアハウスを取り巻く利用可能な情報処理インフラストラクチャ-情報処理インフラストラクチャとは、複数の異種データベース、Webアクセスおよびサービス施設、レポート、OLAP分析ツールへのアクセス、統合、統合、変換を指します。
* OLAPベースの探索的データ分析*-効果的なデータマイニングには探索的データ分析が必要です。 OLAMは、データのさまざまなサブセットおよび異なる抽象化レベルでのデータマイニング機能を提供します。
データマイニング機能のオンライン選択-OLAPと複数のデータマイニング機能およびオンライン分析マイニングを統合することにより、ユーザーは必要なデータマイニング機能を選択し、データマイニングタスクを動的に交換する柔軟性を得ることができます。

データマイニング-用語

データマイニング

データマイニングとは、膨大なデータセットから情報を抽出することです。つまり、データマイニングはデータから知識をマイニングしていると言えます。この情報は、次のアプリケーションのいずれかに使用することができます-

市場分析
不正検出
顧客維持
生産管理
科学探査

データマイニングエンジン

データマイニングエンジンは、データマイニングシステムにとって非常に重要です。それは、次の機能を実行する機能モジュールのセットで構成されています-

特徴づけ
関連付けと相関分析
分類
予測
クラスター分析
外れ値分析
進化分析

知識ベース

これがドメインの知識です。この知識は、検索をガイドしたり、結果のパターンの面白さを評価するために使用されます。

知識発見

データマイニングを知識発見と同じように扱う人もいれば、データマイニングを知識発見のプロセスの重要なステップと見なす人もいます。ここに知識発見プロセスに含まれるステップのリストがあります-

データクリーニング
データ統合
データ選択
データ変換
データマイニング
パターン評価
ナレッジプレゼンテーション

ユーザーインターフェース

ユーザーインターフェイスは、ユーザーとデータマイニングシステム間の通信を支援するデータマイニングシステムのモジュールです。ユーザーインターフェイスは、次の機能を可能にします-

データマイニングクエリタスクを指定して、システムと対話します。
検索に焦点を当てるのに役立つ情報を提供します。
中間データマイニング結果に基づくマイニング。
データベースおよびデータウェアハウスのスキーマまたはデータ構造を参照します。
マイニングパターンを評価します。
さまざまな形式でパターンを視覚化します。

データ統合

データ統合は、複数の異種データソースからのデータをコヒーレントデータストアにマージするデータ前処理技術です。データ統合には一貫性のないデータが含まれる場合があるため、データのクリーニングが必要です。

データクリーニング

データクリーニングは、ノイズの多いデータを削除し、データの不整合を修正するために適用される手法です。データクリーニングには、間違ったデータを修正する変換が含まれます。データクリーニングは、データウェアハウスのデータを準備する際のデータ前処理ステップとして実行されます。

データ選択

データ選択は、分析タスクに関連するデータがデータベースから取得されるプロセスです。データ選択プロセスの前に、データの変換と統合が実行される場合があります。

クラスター

クラスタは、類似した種類のオブジェクトのグループを指します。クラスター分析とは、互いに非常に類似しているが、他のクラスター内のオブジェクトとは大きく異なるオブジェクトのグループを形成することです。

データ変換

このステップでは、サマリーまたは集計操作を実行して、データをマイニングに適した形式に変換または統合します。

データマイニング-知識発見

知識発見とは何ですか？

データマイニングと知識発見を区別しない人もいれば、データマイニングを知識発見のプロセスの重要なステップと見なす人もいます。ここに知識発見プロセスに含まれるステップのリストがあります-

データのクリーニング-このステップでは、ノイズと一貫性のないデータが削除されます。
データ統合-このステップでは、複数のデータソースが結合されます。
データ選択-このステップでは、分析タスクに関連するデータがデータベースから取得されます。
データ変換-このステップでは、サマリーまたは集計操作を実行して、データをマイニングに適した形式に変換または統合します。
データマイニング-このステップでは、データパターンを抽出するためにインテリジェントな方法が適用されます。
パターン評価-このステップでは、データパターンが評価されます。
ナレッジプレゼンテーション-このステップでは、知識が表されます。

次の図は、知識発見のプロセスを示しています-

知識発見

データマイニング-システム

多種多様なデータマイニングシステムが利用可能です。データマイニングシステムは、以下からの技術を統合することがあります-

空間データ分析
情報検索
パターン認識
画像解析
信号処理
コンピューターグラフィックス
ウェブテクノロジー
ビジネス
バイオインフォマティクス

データマイニングシステムの分類

データマイニングシステムは、次の基準に従って分類することができます-

データベース技術
統計
機械学習
インフォメーション・サイエンス
可視化
その他の分野

データマイニングシステム

これらとは別に、データマイニングシステムは、（a）マイニングされたデータベース、（b）マイニングされた知識、（c）利用された技術、および（d）適応されたアプリケーションの種類に基づいて分類することもできます。

マイニングされたデータベースに基づく分類

マイニングするデータベースの種類に応じて、データマイニングシステムを分類できます。データベースシステムは、データモデル、データのタイプなど、さまざまな基準に従って分類できます。データマイニングシステムはそれに応じて分類できます。

たとえば、データベースをデータモデルに従って分類する場合、リレーショナル、トランザクション、オブジェクトリレーショナル、またはデータウェアハウスのマイニングシステムを使用できます。

マイニングした知識の種類に基づく分類

マイニングした知識の種類に応じて、データマイニングシステムを分類できます。これは、データマイニングシステムが次のような機能に基づいて分類されることを意味します-

特徴づけ
差別
関連付けと相関分析
分類
予測
外れ値分析
進化分析

利用された技術に基づく分類

使用する手法の種類に応じて、データマイニングシステムを分類できます。これらの手法は、関連するユーザーインタラクションの程度または採用された分析方法に従って説明できます。

適応されたアプリケーションに基づく分類

適応したアプリケーションに応じてデータマイニングシステムを分類できます。これらのアプリケーションは次のとおりです-

ファイナンス
テレコミュニケーション
DNA
株式市場
Eメール

データマイニングシステムとDB/DWシステムの統合

データマイニングシステムがデータベースまたはデータウェアハウスシステムと統合されていない場合、通信するシステムはありません。このスキームは、非結合スキームとして知られています。このスキームの主な焦点は、データマイニングの設計と、利用可能なデータセットをマイニングするための効率的で効果的なアルゴリズムの開発です。

統合スキームのリストは次のとおりです-

結合なし-このスキームでは、データマイニングシステムはデータベースまたはデータウェアハウス機能を使用しません。特定のソースからデータを取得し、データマイニングアルゴリズムを使用してそのデータを処理します。データマイニングの結果は別のファイルに保存されます。
Loose Coupling -このスキームでは、データマイニングシステムはデータベースおよびデータウェアハウスシステムの機能の一部を使用する場合があります。これらのシステムによって管理される呼吸データからデータを取得し、そのデータに対してデータマイニングを実行します。次に、マイニング結果をファイルに保存するか、データベースまたはデータウェアハウスの指定された場所に保存します。
セミタイトカップリング-このスキームでは、データマイニングシステムがデータベースまたはデータウェアハウスシステムにリンクされ、それに加えて、いくつかのデータマイニングプリミティブの効率的な実装をデータベースで提供できます。
密結合-この結合スキームでは、データマイニングシステムがデータベースまたはデータウェアハウスシステムにスムーズに統合されます。データマイニングサブシステムは、情報システムの1つの機能コンポーネントとして扱われます。

データマイニング-クエリ言語

データマイニングクエリ言語（DMQL）は、Han、Fu、Wangなどによって提案されました。 DBMinerデータマイニングシステム用。データマイニングクエリ言語は、実際には構造化クエリ言語（SQL）に基づいています。データマイニングクエリ言語は、アドホックでインタラクティブなデータマイニングをサポートするように設計できます。このDMQLは、プリミティブを指定するためのコマンドを提供します。 DMQLは、データベースやデータウェアハウスでも機能します。 DMQLを使用して、データマイニングタスクを定義できます。特に、DMQLでデータウェアハウスとデータマートを定義する方法を調べます。

タスク関連データ仕様の構文

タスク関連データを指定するためのDMQLの構文は次のとおりです-

use database database_name

or

use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list

知識の種類を指定するための構文

ここでは、特徴付け、識別、関連付け、分類、および予測の構文について説明します。

特徴づけ

特徴付けの構文は次のとおりです-

mine characteristics [as pattern_name]
   analyze  {measure(s) }

analyze句は、count、sum、count％などの集計メジャーを指定します。

たとえば-

Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%

差別

差別の構文は-

mine comparison [as {pattern_name]}
For {target_class } where  {t arget_condition }
{versus  {contrast_class_i }
where {contrast_condition_i}}
analyze  {measure(s) }

たとえば、ユーザーは、大きな支出者を、平均で100ドル以上かかるアイテムを購入する顧客として定義できます。平均100ドル未満で商品を購入する顧客としての予算支出者。これらの各カテゴリからの顧客の判別式の説明のマイニングは、DMQLで次のように指定できます-

mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count

協会

関連付けの構文は次のとおりです-

mine associations [ as {pattern_name} ]
{matching {metapattern} }

例-

mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)

Xは顧客関係のキーです。 PとQは述語変数です。 W、Y、およびZはオブジェクト変数です。

分類

分類の構文は次のとおりです-

mine classification [as pattern_name]
analyze classifying_attribute_or_dimension

たとえば、パターンをマイニングするには、クラスが属性credit_ratingによって決定される顧客の信用格付けを分類し、マイニング分類はclassifyCustomerCreditRatingとして決定されます。

analyze credit_rating

予測

予測の構文は-

mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

コンセプト階層仕様の構文

概念階層を指定するには、次の構文を使用します-

use hierarchy <hierarchy> for <attribute_or_dimension>

さまざまな構文を使用して、次のようなさまざまな種類の階層を定義します。

-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior

-operation-derived hierarchies
define hierarchy age_hierarchy  for age  on customer  as
{age_category(1), ..., age_category(5)}
:= cluster(default, age, 5) < all(age)

-rule-based hierarchies
define hierarchy profit_margin_hierarchy  on item  as
level_1: low_profit_margin < level_0:  all

if (price - cost)< $50
   level_1:  medium-profit_margin < level_0:  all

if ((price - cost) > $50)  and ((price - cost) ≤ $250))
   level_1:  high_profit_margin < level_0:  all

興味度尺度仕様の構文

興味深い尺度としきい値は、ステートメントでユーザーが指定することができます-

with <interest_measure_name>  threshold = threshold_value

例-

with support threshold = 0.05
with confidence threshold = 0.7

パターン表示および視覚化仕様の構文

検出されたパターンの表示を1つ以上のフォームで指定できる構文があります。

display as <result_form>

例-

display as table

DMQLの完全な仕様

企業のマーケットマネージャーとして、100ドル以上の価格で商品を購入できる顧客の購入習慣を特徴付けたいとします。顧客の年齢、購入した商品の種類、商品が購入された場所に関して。その特性を持っている顧客の割合を知りたいと思います。特に、あなたはカナダで行われ、American Expressクレジットカードで支払われた購入にのみ興味があります。結果の説明を表形式で表示します。

use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S,  branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table

データマイニング言語の標準化

データマイニング言語の標準化は、次の目的に役立ちます-

データマイニングソリューションの体系的な開発を支援します。
複数のデータマイニングシステムおよび機能間の相互運用性を向上させます。
教育と迅速な学習を促進します。
産業および社会におけるデータマイニングシステムの使用を促進します。

データマイニング-分類と予測

重要なクラスを記述するモデルを抽出したり、将来のデータの傾向を予測したりするために使用できるデータ分析には、2つの形式があります。これらの2つの形式は次のとおりです-

分類
予測

分類モデルは、カテゴリークラスラベルを予測します。予測モデルは連続値関数を予測します。たとえば、銀行ローンの申請を安全または危険のいずれかに分類する分類モデルや、収入と職業を考慮したコンピューター機器での潜在的な顧客の支出をドルで予測する予測モデルを構築できます。

分類とは何ですか？

以下は、データ分析タスクが分類である場合の例です-

銀行の融資担当者は、どの顧客（融資申請者）が危険であるか、または安全であるかを知るためにデータを分析したいと考えています。
会社のマーケティングマネージャーは、新しいコンピューターを購入する特定のプロファイルを持つ顧客を分析する必要があります。

上記の両方の例で、カテゴリカルラベルを予測するモデルまたは分類子が構築されます。これらのラベルは、融資申請データについては危険または安全であり、マーケティングデータについてはイエスまたはノーです。

予測とは何ですか？

以下は、データ分析タスクが予測である場合の例です-

マーケティングマネージャーが、会社での販売中に特定の顧客がいくら使うかを予測する必要があるとします。この例では、数値を予測することに煩わされています。したがって、データ分析タスクは数値予測の一例です。この場合、連続値関数または順序付けされた値を予測するモデルまたは予測子が構築されます。

注-回帰分析は、数値予測に最もよく使用される統計手法です。

分類の仕組み

上記で説明した銀行ローン申請書の助けを借りて、分類の仕組みを理解しましょう。データ分類プロセスには2つのステップが含まれています-

分類子またはモデルの構築
分類のための分類子の使用

分類子またはモデルの構築

このステップは、学習ステップまたは学習フェーズです。
このステップでは、分類アルゴリズムが分類子を作成します。
分類子は、データベースタプルとそれに関連付けられたクラスラベルで構成されるトレーニングセットから構築されます。
トレーニングセットを構成する各タプルは、カテゴリまたはクラスと呼ばれます。これらのタプルは、サンプル、オブジェクト、またはデータポイントとも呼ばれます。

分類子またはモデルの構築

分類のための分類子の使用

このステップでは、分類に分類器が使用されます。ここでは、テストデータを使用して分類ルールの精度を推定します。精度が許容範囲内であると見なされる場合、新しいデータタプルに分類ルールを適用できます。

分類子の使用

分類と予測の問題

主な問題は、分類と予測のためのデータの準備です。データの準備には、次のアクティビティが含まれます-

データクリーニング-データクリーニングには、ノイズの除去と欠損値の処理が含まれます。ノイズは、平滑化手法を適用することで除去され、欠損値の問題は、欠損値をその属性で最も一般的に発生する値に置き換えることで解決されます。
関連性分析-データベースにも関連性のない属性が含まれている場合があります。相関分析は、特定の2つの属性が関連しているかどうかを知るために使用されます。
データの変換と削減-データは次のいずれかの方法で変換できます。
正規化-データは正規化を使用して変換されます。正規化では、指定された小さな範囲内に収まるように、特定の属性のすべての値をスケーリングします。正規化は、学習ステップで、ニューラルネットワークまたは測定を伴う方法が使用される場合に使用されます。
一般化-データは、上位概念に一般化することで変換することもできます。この目的のために、概念階層を使用できます。

注-データは、ウェーブレット変換、ビニング、ヒストグラム分析、クラスタリングなどの他の方法によっても削減できます。

分類法と予測法の比較

ここに分類と予測の方法を比較するための基準があります-

精度-分類器の精度は、分類器の能力を指します。クラスラベルを正しく予測し、予測子の精度は、特定の予測子が新しいデータの予測属性の値をどれだけうまく推測できるかを示します。
速度-これは、分類子または予測子を生成および使用する際の計算コストを指します。
堅牢性-ノイズまたはノイズのあるデータから正しい予測を行う分類器または予測器の機能を指します。
スケーラビリティ-スケーラビリティとは、分類子または予測子を効率的に構築する能力のことです。大量のデータが与えられた。
解釈可能性-分類子または予測子が理解する範囲を指します。

データマイニング-デシジョンツリーの誘導

決定木は、ルートノード、ブランチ、およびリーフノードを含む構造です。各内部ノードは属性のテストを示し、各ブランチはテストの結果を示し、各リーフノードはクラスラベルを保持します。ツリーの最上位ノードはルートノードです。

次の決定ツリーは、企業の顧客がコンピューターを購入する可能性が高いかどうかを示す概念buy_computer用です。各内部ノードは、属性のテストを表します。各リーフノードはクラスを表します。

デシジョンツリー

決定木を持つことの利点は次のとおりです-

ドメインに関する知識は必要ありません。
理解するのは簡単です。
決定木の学習と分類の手順は簡単で高速です。

決定木誘導アルゴリズム

Jという名前の機械研究者 Ross Quinlanは1980年にID3（Iterative Dichotomiser）として知られる決定木アルゴリズムを開発しました。その後、彼はID3の後継であるC4.5を発表しました。 ID3とC4.5は貪欲なアプローチを採用しています。このアルゴリズムでは、バックトラックはありません。ツリーは、トップダウンの再帰的な分割統治方式で構築されます。

Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree

Input:
Data partition, D, which is a set of training tuples
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data
tuples into individual classes. This criterion includes a
splitting_attribute and either a splitting point or splitting subset.

Output:
 A Decision Tree

Method
create a node N;

if tuples in D are all of the same class, C then
   return N as leaf node labeled with class C;

if attribute_list is empty then
   return N as leaf node with labeled
   with majority class in D;|| majority voting

apply attribute_selection_method(D, attribute_list)
to find the best splitting_criterion;
label node N with splitting_criterion;

if splitting_attribute is discrete-valued and
   multiway splits allowed then //no restricted to binary trees

attribute_list = splitting attribute;//remove splitting attribute
for each outcome j of splitting criterion

  //partition the tuples and grow subtrees for each partition
   let Dj be the set of data tuples in D satisfying outcome j;//a partition

   if Dj is empty then
      attach a leaf labeled with the majority
      class in D to node N;
   else
      attach the node returned by Generate
      decision tree(Dj, attribute list) to node N;
   end for
return N;

木の剪定

ツリーの枝刈りは、ノイズまたは異常値によるトレーニングデータの異常を除去するために実行されます。剪定された木は小さく、複雑ではありません。

ツリーの剪定アプローチ

木を剪定するには2つのアプローチがあります-

事前剪定-ツリーは、その構築を早期に停止することにより剪定されます。
ポストプルーニング-このアプローチは、完全に成長したツリーからサブツリーを削除します。

コストの複雑さ

コストの複雑さは、次の2つのパラメータによって測定されます-

ツリーの葉の数、および
ツリーのエラー率。

データマイニング-ベイジアン分類

ベイジアン分類は、ベイズの定理に基づいています。ベイズ分類器は統計的分類器です。ベイジアン分類器は、特定のタプルが特定のクラスに属する確率などのクラスメンバーシップの確率を予測できます。

ベイの定理

ベイズの定理は、トーマス・ベイズにちなんで命名されました。確率には2種類あります-

事後確率[P（H/X）]
事前確率[P（H）]

Xはデータタプルで、Hは仮説です。

ベイズの定理によると、

P（H/X）= P（X/H）P（H）/P（X）

ベイジアン信念ネットワーク

ベイジアン信念ネットワークは、結合条件付き確率分布を指定します。これらは、信念ネットワーク、ベイジアンネットワーク、または確率ネットワークとも呼ばれます。

信念ネットワークにより、クラスの条件付き独立性を変数のサブセット間で定義できます。
学習を実行できる因果関係のグラフィカルモデルを提供します。
分類には訓練されたベイジアンネットワークを使用できます。

ベイジアン信念ネットワークを定義する2つのコンポーネントがあります-

有向非巡回グラフ
条件付き確率テーブルのセット

有向非巡回グラフ

有向非巡回グラフの各ノードは、ランダム変数を表します。
これらの変数は、離散値でも連続値でもかまいません。
これらの変数は、データで指定された実際の属性に対応する場合があります。

有向非巡回グラフ表現

次の図は、6つのブール変数の有向非巡回グラフを示しています。

非周期グラフ

図の弧は、因果的知識の表現を可能にします。たとえば、肺がんは、その人が喫煙者かどうかだけでなく、その人の肺がんの家族歴の影響も受けます。変数PositiveXrayは、患者が肺癌を患っていることを知っているので、患者が肺癌の家族歴を持っているか、喫煙者であるかどうかに依存しないことは注目に値します。

条件付き確率表

親ノード、FamilyHistory（FH）、およびSmoker（S）の値の可能な組み合わせを示す変数LungCancer（LC）の値の条件付き確率表は次のとおりです-

確率表

データマイニング-ルールベースの分類

IF-THENルール

ルールベースの分類子は、分類に一連のIF-THENルールを使用します。私たちは次のルールを次のように表現できます-

IF条件THEN結論

ルールR1を考えてみましょう。

R1: IF age = youth AND student = yes
   THEN buy_computer = yes

覚えておくべきポイント-

ルールのIF部分は、 rule antecedent または precondition と呼ばれます。
ルールのTHEN部分は、 rule consequent と呼ばれます。
条件の前件部分は1つ以上の属性テストで構成され、これらのテストは論理的にANDされます。
結果部分はクラス予測で構成されます。

注-ルールR1を次のように書くこともできます-

R1: (age = youth) ^ (student = yes))(buys computer = yes)

条件が特定のタプルに当てはまる場合、前件は満たされます。

ルール抽出

ここでは、意思決定ツリーからIF-THENルールを抽出して、ルールベースの分類子を構築する方法を学びます。

覚えておくべきポイント-

決定木からルールを抽出するには-

ルートからリーフノードへのパスごとに1つのルールが作成されます。
ルールの前件を形成するために、各分割基準は論理的にANDされます。
リーフノードはクラス予測を保持し、結果としてルールを形成します。

シーケンシャルカバリングアルゴリズムを使用したルール誘導

シーケンシャルカバリングアルゴリズムを使用して、トレーニングデータからIF-THENルールを抽出できます。最初に決定木を生成する必要はありません。このアルゴリズムでは、特定のクラスの各ルールが、そのクラスの多くのタプルをカバーします。

シーケンシャルカバリングアルゴリズムには、AQ、CN2、およびRIPPERがあります。一般的な戦略に従って、ルールは一度に1つずつ学習されます。ルールが学習されるたびに、ルールの対象となっているタプルが削除され、残りのタプルについてプロセスが続行されます。これは、決定木の各葉へのパスがルールに対応しているためです。

注-ディシジョンツリーの帰納は、一連のルールを同時に学習すると見なすことができます。

以下は、一度に1つのクラスのルールを学習する逐次学習アルゴリズムです。クラスCiからルールを学習するとき、ルールはクラスCからのすべてのタプルをカバーし、他のクラスのタプルはカバーしないようにします。

Algorithm: Sequential Covering

Input:
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ };//initial set of rules learned is empty

for each class c do

   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;

   Rule_set=Rule_set+Rule;//add a new rule to rule-set
end for
return Rule_Set;

ルールプルーニング

ルールがプルーニングされているのは、次の理由によるものです-

品質の評価は、トレーニングデータの元のセットで行われます。このルールは、トレーニングデータではうまく機能しますが、後続のデータではあまり機能しません。そのため、ルールのプルーニングが必要です。
ルールは、接続詞を削除することで整理されます。 Rの枝刈りされたバージョンの品質が、独立したタプルのセットで評価されたものよりも高い場合、ルールRは枝刈りされます。

FOILは、ルールプルーニングのためのシンプルで効果的な方法の1つです。与えられたルールRに対して、

FOIL_Prune = pos-neg/pos + neg

ここで、posおよびnegは、それぞれRでカバーされる正のタプルの数です。

注意-この値は、プルーニングセットのRの精度とともに増加します。したがって、FOIL_Prune値がRの枝刈り済みバージョンの方が高い場合、Rを剪定します。

その他の分類方法

ここでは、遺伝的アルゴリズム、ラフセットアプローチ、ファジーセットアプローチなどの他の分類方法について説明します。

遺伝的アルゴリズム

遺伝的アルゴリズムの考え方は、自然の進化に由来しています。遺伝的アルゴリズムでは、まず最初に初期母集団が作成されます。この初期集団は、ランダムに生成されたルールで構成されています。ビットの文字列で各ルールを表すことができます。

たとえば、特定のトレーニングセットでは、サンプルはA1やA2などの2つのブール属性によって記述されます。そして、このトレーニングセットには、C1やC2などの2つのクラスが含まれています。

ルール IF A1 AND NOT A2 THEN C2 をビット文字列 100 にエンコードできます。このビット表現では、左端の2つのビットはそれぞれ属性A1とA2を表します。

同様に、 IF NOT A1 AND NOT A2 THEN C1 は 001 としてエンコードできます。

注-属性にK値があり、K> 2の場合、Kビットを使用して属性値をエンコードできます。クラスも同じ方法でエンコードされます。

覚えておくべき点-

適者生存の概念に基づいて、現在の人口の適者ルールとこれらのルールの子孫値から構成される新しい人口が形成されます。
ルールの適合性は、トレーニングサンプルのセットの分類精度によって評価されます。
クロスオーバーや突然変異などの遺伝的演算子は、子孫を作成するために適用されます。
クロスオーバーでは、ルールのペアからの部分文字列が交換されて、新しいルールのペアが形成されます。
突然変異では、ルールの文字列でランダムに選択されたビットが反転します。

ラフセットアプローチ

ラフセットアプローチを使用して、不正確でノイズの多いデータ内の構造的関係を発見できます。

注-このアプローチは、離散値属性にのみ適用できます。したがって、連続値属性は、使用する前に離散化する必要があります。

ラフ集合理論は、与えられたトレーニングデータ内の等価クラスの確立に基づいています。等価クラスを形成するタプルは識別できません。これは、サンプルがデータを記述する属性に関して同一であることを意味します。

与えられた実世界のデータにはいくつかのクラスがあり、それらは利用可能な属性の観点から区別できません。ラフセットを使用して、そのようなクラスを*大まかに*定義できます。

与えられたクラスCの場合、大まかなセット定義は次のように2つのセットで近似されます-

* Cの下位近似-Cの下位近似は、属性の知識に基づいてクラスCに属することが確実なすべてのデータタプルで構成されます。
* Cの上位近似*-Cの上位近似は、属性の知識に基づいてすべてのタプルで構成され、Cに属していないとは記述できません。

次の図は、クラスCの上限と下限の近似を示しています-

概算

ファジーセットアプローチ

ファジー集合理論は、可能性理論とも呼ばれます。この理論は、1965年にLotfi Zadehによって、* 2値論理*および*確率論*の代替として提案されました。この理論により、高レベルの抽象化で作業することができます。また、データの不正確な測定に対処する手段も提供します。

また、ファジーセット理論により、曖昧または不正確な事実に対処することができます。たとえば、一連の高収入のメンバーであることは正確です（例： 50,000ドルが高ければ、49,000ドルと48,000ドル）。要素がSまたはその補数に属する従来のCRISPセットとは異なり、ファジーセット理論では、要素は複数のファジーセットに属することができます。

たとえば、収入値$ 49,000は、中度および高度のファジーセットの両方に属しますが、程度は異なります。この収入値のファジーセット表記は次のとおりです-

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

ここで、「m」は、それぞれmedium_incomeおよびhigh_incomeのファジーセットで動作するメンバーシップ関数です。この表記は、次のように図式的に示すことができます-

ファジーアプローチ

データマイニング-クラスター分析

クラスターは、同じクラスに属するオブジェクトのグループです。つまり、類似したオブジェクトは1つのクラスターにグループ化され、異なるオブジェクトは別のクラスターにグループ化されます。

クラスタリングとは

クラスタリングは、抽象オブジェクトのグループを類似オブジェクトのクラスにするプロセスです。

覚えておくべきポイント

データオブジェクトのクラスターは、1つのグループとして扱うことができます。
クラスター分析を行う際、データの類似性に基づいて最初に一連のデータをグループに分割し、次にグループにラベルを割り当てます。
分類に対するクラスタリングの主な利点は、変更に適応可能であり、さまざまなグループを区別する便利な機能を特定できることです。

クラスター分析の応用

クラスタリング分析は、市場調査、パターン認識、データ分析、画像処理などの多くのアプリケーションで広く使用されています。
クラスタリングは、マーケティング担当者が顧客ベースで異なるグループを発見するのにも役立ちます。また、購入パターンに基づいて顧客グループを特徴付けることができます。
生物学の分野では、植物および動物の分類法を導き出し、同様の機能を持つ遺伝子を分類し、集団に固有の構造に関する洞察を得るために使用できます。
クラスタリングは、地球観測データベースで類似した土地利用の地域の特定にも役立ちます。また、家のタイプ、価値、および地理的位置に応じて、都市内の家のグループを識別するのにも役立ちます。
クラスタリングは、情報発見のためにWeb上のドキュメントを分類するのにも役立ちます。
クラスタリングは、クレジットカード詐欺の検出などの異常値検出アプリケーションでも使用されます。
データマイニング機能として、クラスター分析は、各クラスターの特性を観察するためにデータの分布を洞察するツールとして機能します。

データマイニングにおけるクラスタリングの要件

次の点は、データマイニングでクラスタリングが必要な理由に光を投げかけます-

スケーラビリティ-大規模なデータベースを処理するには、高度にスケーラブルなクラスタリングアルゴリズムが必要です。
さまざまな種類の属性を処理する能力-アルゴリズムは、間隔ベース（数値）データ、カテゴリ、バイナリデータなど、あらゆる種類のデータに適用できる必要があります。
属性形状を持つクラスターの検出-クラスタリングアルゴリズムは、任意の形状のクラスターを検出できる必要があります。それらは、小さなサイズの球状クラスターを見つける傾向がある距離測定のみに限定されるべきではありません。
高次元-クラスタリングアルゴリズムは、低次元データだけでなく高次元空間も処理できる必要があります。
ノイズの多いデータに対処する能力-データベースにはノイズのある、欠落した、または誤ったデータが含まれています。一部のアルゴリズムは、このようなデータに敏感であり、クラスターの品質が低下する可能性があります。
解釈可能性-クラスタリング結果は、解釈可能で、わかりやすく、使用可能である必要があります。

クラスタリング方法

クラスタリング方法は、次のカテゴリに分類することができます-

分割方法
階層的方法
密度ベースの方法
グリッドベースの方法
モデルベースの方法
制約ベースの方法

分割方法

「n」個のオブジェクトのデータベースが与えられ、パーティション化メソッドが「k」個のデータパーティションを構築するとします。各パーティションはクラスターを表し、k≤nです。それは、以下の要件を満たすデータをkグループに分類することを意味します-

各グループには少なくとも1つのオブジェクトが含まれます。
各オブジェクトは、1つのグループに属している必要があります。

覚えておくべきポイント-

所定の数のパーティション（たとえばk）に対して、パーティション方法は初期パーティションを作成します。
次に、オブジェクトをあるグループから別のグループに移動することにより、反復再配置手法を使用してパーティション化を改善します。

階層的な方法

このメソッドは、指定されたデータオブジェクトのセットの階層分解を作成します。階層分解の形成方法に基づいて、階層メソッドを分類できます。ここには2つのアプローチがあります-

凝集的アプローチ
分裂的アプローチ

凝集的アプローチ

このアプローチは、ボトムアップアプローチとも呼ばれます。これでは、各オブジェクトが個別のグループを形成することから始めます。互いに近いオブジェクトまたはグループを結合し続けます。すべてのグループが1つにマージされるまで、または終了条件が保持されるまで、そのようにし続けます。

分裂的アプローチ

このアプローチは、トップダウンアプローチとも呼ばれます。これでは、同じクラスター内のすべてのオブジェクトから始めます。連続反復では、クラスターはより小さなクラスターに分割されます。 1つのクラスター内の各オブジェクトまたは終了条件が保持されるまで停止します。この方法は厳格です。つまり、マージまたは分割が完了すると、元に戻すことはできません。

階層的クラスタリングの品質を改善するアプローチ

階層的クラスタリングの品質を改善するために使用される2つのアプローチを次に示します-

各階層パーティションでオブジェクトリンケージの注意深い分析を実行します。
最初に階層型凝集アルゴリズムを使用してオブジェクトをマイクロクラスターにグループ化し、次にマイクロクラスターでマクロクラスタリングを実行することにより、階層型凝集を統合します。

密度ベースの方法

この方法は、密度の概念に基づいています。基本的な考え方は、近隣の密度がしきい値を超える限り、特定のクラスターの成長を継続することです。つまり、特定のクラスター内の各データポイントについて、特定のクラスターの半径には少なくとも最小数のポイントが含まれている必要があります。

グリッドベースの方法

これで、オブジェクトは一緒にグリッドを形成します。オブジェクト空間は、グリッド構造を形成する有限数のセルに量子化されます。

メリット

この方法の主な利点は、処理時間が速いことです。
量子化された空間の各次元のセルの数のみに依存します。

モデルベースの方法

この方法では、特定のモデルに最適なデータを見つけるために、クラスターごとにモデルが仮定されます。このメソッドは、密度関数をクラスタリングすることによりクラスターを特定します。データポイントの空間分布を反映しています。

この方法は、外れ値やノイズを考慮して、標準統計に基づいてクラスターの数を自動的に決定する方法も提供します。したがって、堅牢なクラスタリング手法が得られます。

制約ベースの方法

この方法では、ユーザーまたはアプリケーション指向の制約を組み込むことにより、クラスタリングが実行されます。制約とは、ユーザーの期待または望ましいクラスタリング結果のプロパティを指します。制約により、クラスタリングプロセスとの対話型の通信方法が提供されます。制約は、ユーザーまたはアプリケーションの要件によって指定できます。

データマイニング-テキストデータのマイニング

テキストデータベースは、膨大なドキュメントのコレクションで構成されています。ニュース記事、書籍、デジタルライブラリ、電子メールメッセージ、Webページなどのいくつかのソースからこれらの情報を収集します。情報量の増加により、テキストデータベースは急速に成長しています。多くのテキストデータベースでは、データは半構造化されています。

たとえば、ドキュメントには、タイトル、作成者、publishing_dateなどのいくつかの構造化フィールドが含まれる場合があります。ただし、構造データに加えて、ドキュメントには、抽象やコンテンツなどの非構造化テキストコンポーネントも含まれています。文書に何が含まれているかを知らなければ、データから有用な情報を分析および抽出するための効果的なクエリを作成することは困難です。ユーザーは、ドキュメントを比較し、その重要性と関連性をランク付けするツールを必要とします。そのため、テキストマイニングが普及し、データマイニングの重要なテーマになりました。

情報検索

情報検索では、多数のテキストベースのドキュメントから情報を検索します。データベースシステムの一部は、通常、情報検索システムには存在しません。これは、両方が異なる種類のデータを処理するためです。情報検索システムの例が含まれます-

オンライン図書館目録システム
オンライン文書管理システム
ウェブ検索システムなど

注-情報検索システムの主な問題は、ユーザーのクエリに基づいてドキュメントコレクション内の関連ドキュメントを見つけることです。この種のユーザーのクエリは、情報のニーズを説明するいくつかのキーワードで構成されています。

このような検索の問題では、ユーザーはイニシアチブを取り、関連する情報をコレクションから引き出します。これは、ユーザーがアドホックな情報のニーズ、つまり短期的なニーズがある場合に適しています。しかし、ユーザーが長期的な情報を必要としている場合、検索システムはイニシアチブを取り、新しく到着した情報アイテムをユーザーにプッシュすることもできます。

この種類の情報へのアクセスは、情報フィルタリングと呼ばれます。対応するシステムは、フィルタリングシステムまたはレコメンダーシステムとして知られています。

テキスト検索の基本的な手段

ユーザーの入力に基づいて多数のドキュメントを取得する場合、システムの精度を確認する必要があります。クエリに関連するドキュメントのセットを\ {Relevant}と表示し、取得したドキュメントのセットを\ {Retrieved}と表示します。関連して取得されるドキュメントのセットは、\ {Relevant}∩\ {Retrieved}として示されます。これは、次のようにベン図の形で示すことができます-

対策

テキスト検索の品質を評価するための3つの基本的な尺度があります-

精度
想起
Fスコア

精度

精度とは、クエリに実際に関連する検索されたドキュメントの割合です。精度は次のように定義できます-

Precision= |{Relevant} ∩ {Retrieved}|/ |{Retrieved}|

想起

リコールは、クエリに関連し、実際に取得されたドキュメントの割合です。リコールは次のように定義されます-

Recall = |{Relevant} ∩ {Retrieved}|/ |{Relevant}|

Fスコア

Fスコアは一般的に使用されるトレードオフです。情報検索システムは、しばしば精度とその逆のトレードオフが必要です。 Fスコアは、次のようにリコールまたは精度の調和平均として定義されています-

F-score = recall x precision/(recall + precision)/2

データマイニング-マイニングWorld Wide Web

World Wide Webには、データマイニングの豊富なソースを提供する大量の情報が含まれています。

Webマイニングの課題

ウェブは、次の観察に基づいてリソースと知識の発見に大きな課題をもたらします-

ウェブが大きすぎる-ウェブのサイズは非常に大きく、急速に増加しています。これは、データウェアハウジングやデータマイニングにはWebが大きすぎるようです。
* Webページの複雑さ*-Webページには統一構造がありません。従来のテキストドキュメントと比較して、非常に複雑です。 Webのデジタルライブラリには膨大な量のドキュメントがあります。これらのライブラリは、特定の並べ替え順序に従って配置されていません。
ウェブは動的な情報ソース-ウェブ上の情報は急速に更新されます。ニュース、株式市場、天気、スポーツ、ショッピングなどのデータは定期的に更新されます。
ユーザーコミュニティの多様性-Web上のユーザーコミュニティは急速に拡大しています。これらのユーザーには、さまざまな背景、関心、および使用目的があります。インターネットに接続されているワークステーションが1億台以上あり、急速に増加しています。
情報の関連性-特定の人は一般にウェブのごく一部にしか関心がないと考えられますが、ウェブの残りの部分にはユーザーに関係のない情報が含まれており、望ましい結果が得られる可能性があります。

マイニングWebページのレイアウト構造

Webページの基本構造は、ドキュメントオブジェクトモデル（DOM）に基づいています。 DOM構造は、ページ内のHTMLタグがDOMツリー内のノードに対応する構造のようなツリーを指します。 HTMLで事前定義されたタグを使用して、Webページをセグメント化できます。 HTML構文は柔軟であるため、WebページはW3C仕様に準拠していません。 W3Cの仕様に従わないと、DOMツリー構造でエラーが発生する場合があります。

DOM構造は、Webページのセマンティック構造の説明ではなく、ブラウザでの表示用に最初に導入されました。 DOM構造は、Webページのさまざまな部分間の意味関係を正しく識別できません。

ビジョンベースのページセグメンテーション（VIPS）

VIPSの目的は、視覚的な表示に基づいてWebページのセマンティック構造を抽出することです。
このようなセマンティック構造は、ツリー構造に対応しています。このツリーでは、各ノードはブロックに対応しています。
値は各ノードに割り当てられます。この値は、コヒーレンス度と呼ばれます。この値は、視覚に基づいてブロック内の一貫したコンテンツを示すために割り当てられます。
VIPSアルゴリズムは、最初にHTML DOMツリーからすべての適切なブロックを抽出します。その後、これらのブロック間のセパレータを見つけます。
セパレータは、視覚的にブロックなしで交差するWebページの水平線または垂直線を指します。
Webページのセマンティクスは、これらのブロックに基づいて構築されます。

次の図は、VIPSアルゴリズムの手順を示しています-

VIPS

データマイニング-アプリケーションとトレンド

データマイニングは、さまざまな分野で広く使用されています。現在利用可能な商用データマイニングシステムは数多くありますが、この分野には多くの課題があります。このチュートリアルでは、アプリケーションとデータマイニングの傾向について説明します。

データマイニングアプリケーション

これは、データマイニングが広く使用されている分野のリストです-

財務データ分析
小売業
通信産業
生物学的データ分析
その他の科学的応用
侵入検知

財務データ分析

銀行および金融業界の金融データは、一般に信頼性が高く、高品質であり、体系的なデータ分析とデータマイニングを促進します。典型的なケースのいくつかは次のとおりです-

多次元データ分析およびデータマイニングのためのデータウェアハウスの設計と構築。
ローン支払い予測と顧客信用ポリシー分析。
ターゲットマーケティングのための顧客の分類とクラスタリング。
マネーロンダリングおよびその他の金融犯罪の検出。

小売業

データマイニングは、販売、顧客の購入履歴、商品の輸送、消費、サービスに関する大量のデータを収集するため、小売業界での優れたアプリケーションを備えています。 Webの使いやすさ、可用性、人気の高まりにより、収集されるデータの量が急速に拡大し続けることは当然です。

小売業界のデータマイニングは、顧客サービスの品質の向上と優れた顧客維持と満足につながる顧客の購入パターンと傾向の特定に役立ちます。これが小売業界のデータマイニングの例のリストです-

データマイニングの利点に基づいたデータウェアハウスの設計と構築。
販売、顧客、製品、時間、地域の多次元分析。
販売キャンペーンの有効性の分析。
顧客維持。
製品の推奨事項とアイテムの相互参照。

通信産業

今日、電気通信業界は、ファックス、ポケットベル、携帯電話、インターネットメッセンジャー、画像、電子メール、ウェブデータ送信などのさまざまなサービスを提供する最も新しい産業の1つです。新しいコンピューターおよび通信技術の開発により、電気通信業界は急速に拡大しています。これが、ビジネスを支援および理解するためにデータマイニングが非常に重要になる理由です。

電気通信業界のデータマイニングは、電気通信パターンの識別、不正行為の発見、リソースのより有効な活用、およびサービス品質の向上に役立ちます。これは、データマイニングが通信サービスを改善する例のリストです-

通信データの多次元分析。
不正パターン分析。
異常なパターンの識別。
多次元の関連付けと順次パターン分析。
移動体通信サービス。
通信データ分析における視覚化ツールの使用。

生物学的データ分析

最近では、ゲノミクス、プロテオミクス、機能ゲノミクス、生物医学研究などの生物学の分野で驚異的な成長を遂げています。生物学的データマイニングは、バイオインフォマティクスの非常に重要な部分です。以下は、データマイニングが生物学的データ分析に寄与する側面です-

異種の分散ゲノムおよびプロテオミクスデータベースのセマンティック統合。
アライメント、インデックス作成、類似性検索、比較分析、複数のヌクレオチド配列。
構造パターンの発見と、遺伝子ネットワークとタンパク質経路の分析。
関連付けとパス分析。
遺伝データ分析の視覚化ツール。

その他の科学的応用

上記のアプリケーションは、統計的手法が適切な、比較的小さく同種のデータセットを処理する傾向があります。地球科学、天文学などの科学分野から大量のデータが収集されています。気候および生態系モデリング、化学工学、流体力学などのさまざまな分野での高速数値シミュレーションのため、大量のデータセットが生成されています。以下は、科学アプリケーションの分野におけるデータマイニングのアプリケーションです-

データウェアハウスとデータ前処理。
グラフベースのマイニング。
視覚化とドメイン固有の知識。

侵入検知

侵入とは、ネットワークリソースの整合性、機密性、または可用性を脅かすあらゆる種類のアクションを指します。この接続の世界では、セキュリティが大きな問題になっています。インターネットの使用が増え、ネットワークの侵入と攻撃のためのツールとコツが利用できるようになったことで、侵入検知はネットワーク管理の重要なコンポーネントになりました。これは、データマイニングテクノロジーが侵入検知に適用される可能性のある領域のリストです-

侵入検知のためのデータマイニングアルゴリズムの開発。
識別および属性の選択および構築を支援するための関連付けおよび相関分析、集約。
ストリームデータの分析。
分散データマイニング。
視覚化およびクエリツール。

データマイニングシステム製品

多くのデータマイニングシステム製品とドメイン固有のデータマイニングアプリケーションがあります。新しいデータマイニングシステムとアプリケーションは、以前のシステムに追加されています。また、データマイニング言語を標準化する努力がなされています。

データマイニングシステムの選択

データマイニングシステムの選択は、次の機能に依存します-

データタイプ-データマイニングシステムは、フォーマットされたテキスト、レコードベースのデータ、およびリレーショナルデータを処理する場合があります。データは、ASCIIテキスト、リレーショナルデータベースデータ、またはデータウェアハウスデータにすることもできます。したがって、データマイニングシステムが処理できる正確な形式を確認する必要があります。
システムの問題-データマイニングシステムと異なるオペレーティングシステムとの互換性を考慮する必要があります。 1つのデータマイニングシステムは、1つのオペレーティングシステムのみで実行することも、複数のオペレーティングシステムで実行することもできます。 Webベースのユーザーインターフェイスを提供し、入力としてXMLデータを許可するデータマイニングシステムもあります。
データソース-データソースは、データマイニングシステムが動作するデータ形式を指します。一部のデータマイニングシステムはASCIIテキストファイルのみで動作し、他のデータマイニングシステムは複数のリレーショナルソースで動作します。データマイニングシステムは、ODBC接続またはOLE DB for ODBC接続もサポートする必要があります。
データマイニング機能および方法論-分類などの1つのデータマイニング機能のみを提供するデータマイニングシステムがありますが、コンセプトの説明、ディスカバリ駆動型OLAP分析、関連付けマイニング、リンケージ分析、統計分析などの複数のデータマイニング機能を提供するものもあります、分類、予測、クラスタリング、外れ値分析、類似性検索など。
データマイニングとデータベースまたはデータウェアハウスシステムの結合-データマイニングシステムは、データベースまたはデータウェアハウスシステムと結合する必要があります。結合されたコンポーネントは、統一された情報処理環境に統合されます。以下にリストされているカップリングのタイプがあります-
カップリングなし
ルーズカップリング
セミタイトカップリング
密結合
スケーラビリティ-データマイニングには2つのスケーラビリティの問題があります-
行（データベースサイズ）のスケーラビリティ-データマイニングシステムは、1つまたは複数の行が10倍に拡大された場合、行スケーラブルと見なされます。クエリを実行するのに10回もかかりません。
列（ディメンション）のスケーラビリティ-マイニングクエリの実行時間が列の数に比例して増加する場合、データマイニングシステムは列のスケーラブルと見なされます。
視覚化ツール-データマイニングの視覚化は、次のように分類できます-
データの可視化
マイニング結果の視覚化
マイニングプロセスの視覚化
ビジュアルデータマイニング
データマイニングクエリ言語とグラフィカルユーザーインターフェイス-使いやすいグラフィカルユーザーインターフェイスは、ユーザーがガイドするインタラクティブなデータマイニングを促進するために重要です。リレーショナルデータベースシステムとは異なり、データマイニングシステムは、基になるデータマイニングクエリ言語を共有しません。

データマイニングの動向

データマイニングの概念はまだ進化しており、この分野で見られる最新のトレンドは次のとおりです-

アプリケーションの調査。
スケーラブルでインタラクティブなデータマイニング方法。
データマイニングとデータベースシステム、データウェアハウスシステム、およびWebデータベースシステムとの統合。
データマイニングクエリ言語の標準化。
ビジュアルデータマイニング。
複雑なタイプのデータをマイニングするための新しい方法。
生物学的データマイニング。
データマイニングとソフトウェアエンジニアリング。
Webマイニング。
分散データマイニング。
リアルタイムデータマイニング。
マルチデータベースデータマイニング。
データマイニングにおけるプライバシー保護と情報セキュリティ。

データマイニング-テーマ

データマイニングの理論的基盤

データマイニングの理論的基礎には、次の概念が含まれています-

データ削減-この理論の基本的な考え方は、非常に大規模なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、精度と速度を犠牲にしてデータ表現を削減することです。データ削減技術のいくつかは次のとおりです-
特異値分解
ウェーブレット
回帰
対数線形モデル
ヒストグラム
クラスタリング
サンプリング
インデックスツリーの構築
データ圧縮-この理論の基本的な考え方は、次の点でエンコードすることにより、指定されたデータを圧縮することです-
Bits
アソシエーションルール
決定木
クラスター
パターン発見-この理論の基本的な考え方は、データベースで発生するパターンを発見することです。以下は、この理論に貢献する分野です-
機械学習
神経網
協会マイニング
シーケンシャルパターンマッチング
クラスタリング
確率理論-この理論は統計理論に基づいています。この理論の背後にある基本的な考え方は、ランダム変数の同時確率分布を発見することです。
確率理論-この理論によると、データマイニングは、一部の企業の意思決定プロセスで使用できる範囲でのみ興味深いパターンを見つけます。
ミクロ経済学-この理論によると、データベーススキーマは、データベースに格納されているデータとパターンで構成されています。したがって、データマイニングは、データベースで誘導を実行するタスクです。
帰納的データベース-データベース指向のテクニックとは別に、データ分析に利用可能な統計的テクニックがあります。これらの手法は、科学データや経済および社会科学のデータにも適用できます。

統計データマイニング

統計データマイニング技術のいくつかは次のとおりです-

回帰-回帰法は、変数が数値である1つ以上の予測変数から応答変数の値を予測するために使用されます。以下にリストされているのは回帰の形式です-
リニア
複数
加重
多項式
ノンパラメトリック
丈夫
一般化線形モデル-一般化線形モデルに含まれるもの-
ロジスティック回帰
ポアソン回帰 +モデルの一般化により、線形回帰を使用した数値応答変数のモデリングと同様の方法で、カテゴリカル応答変数を一連の予測変数に関連付けることができます。
分散の分析-この手法は分析します-
数値応答変数で記述された2つ以上の母集団の実験データ。
1つ以上のカテゴリ変数（因子）。
混合効果モデル-これらのモデルは、グループ化されたデータの分析に使用されます。これらのモデルは、応答変数と、1つ以上の要因に従ってグループ化されたデータ内のいくつかの共変量との関係を記述します。
因子分析-因子分析は、カテゴリー応答変数を予測するために使用されます。この方法は、独立変数が多変量正規分布に従うことを前提としています。
時系列分析-以下は、時系列データを分析する方法です-
自動回帰メソッド。
一変量ARIMA（自己回帰統合移動平均）モデリング。
長いメモリの時系列モデリング。

ビジュアルデータマイニング

Visual Data Miningは、データや知識の視覚化技術を使用して、大規模なデータセットから暗黙的な知識を発見します。ビジュアルデータマイニングは、次の分野の統合として見ることができます-

データの可視化
データマイニング

視覚データマイニングは、次のことに密接に関連しています-

コンピューターグラフィックス
マルチメディアシステム
ヒューマンコンピューターインタラクション
パターン認識
高性能コンピューティング

一般的に、データの視覚化とデータマイニングは、次の方法で統合することができます-

データの可視化-データベースまたはデータウェアハウスのデータは、以下に示すいくつかの視覚的な形式で表示できます-
ボックスプロット
3Dキューブ
データ分布図
曲線
表面
リンクグラフなど
データマイニング結果の可視化-データマイニング結果の可視化は、データマイニングの結果を視覚的な形式で表示することです。これらの視覚的なフォームは、散布図、箱ひげ図などです。
データマイニングプロセスの可視化-データマイニングプロセスの可視化は、データマイニングのいくつかのプロセスを提示します。これにより、ユーザーはデータの抽出方法を確認できます。また、ユーザーは、どのデータベースまたはデータウェアハウスからデータがクリーンアップ、統合、前処理、およびマイニングされたかを確認できます。

オーディオデータマイニング

オーディオデータマイニングは、オーディオシグナルを使用して、データのパターンまたはデータマイニング結果の機能を示します。パターンを音に変換して黙想することで、写真を見る代わりにピッチや曲を聞いて、面白いものを特定できます。

データマイニングと共同フィルタリング

今日の消費者は、買い物中にさまざまな商品やサービスに出くわします。顧客との実際の取引中に、Recommender Systemは製品の推奨を行うことで消費者を支援します。通常、協調フィルタリングアプローチは、顧客に製品を推奨するために使用されます。これらの推奨事項は、他の顧客の意見に基づいています。

Data-mining-quick-guide

データマイニング-概要

データマイニングとは

データマイニングアプリケーション

市場分析と管理

企業分析とリスク管理

不正検出

データマイニング-タスク

記述関数

クラス/概念の説明

頻繁なパターンのマイニング

協会のマイニング

相関のマイニング

クラスターのマイニング

分類と予測

データマイニングタスクプリミティブ

マイニングするタスク関連データのセット

採掘する知識の種類

背景知識

パターン評価のための興味深い尺度としきい値

発見されたパターンを視覚化するための表現

データマイニング-問題

マイニング手法とユーザーインタラクションの問題

パフォーマンスの問題

多様なデータ型の問題

データマイニング-評価

データウェアハウス

データウェアハウス

クエリ駆動型アプローチ

クエリ駆動型アプローチのプロセス

デメリット

更新主導のアプローチ

利点

データウェアハウジング（OLAP）からデータマイニング（OLAM）へ

OLAMの重要性

データマイニング-用語

データマイニング

データマイニングエンジン

知識ベース

知識発見

ユーザーインターフェース

データ統合

データクリーニング

データ選択

クラスター

データ変換

データマイニング-知識発見

知識発見とは何ですか？

データマイニング-システム

データマイニングシステムの分類

マイニングされたデータベースに基づく分類

マイニングした知識の種類に基づく分類

利用された技術に基づく分類

適応されたアプリケーションに基づく分類

データマイニングシステムとDB/DWシステムの統合

データマイニング-クエリ言語

タスク関連データ仕様の構文

知識の種類を指定するための構文

特徴づけ

差別

協会

分類

予測

コンセプト階層仕様の構文

興味度尺度仕様の構文

パターン表示および視覚化仕様の構文

DMQLの完全な仕様

データマイニング言語の標準化

データマイニング-分類と予測

分類とは何ですか？

予測とは何ですか？

分類の仕組み

分類子またはモデルの構築

分類のための分類子の使用

分類と予測の問題

分類法と予測法の比較

データマイニング-デシジョンツリーの誘導

決定木誘導アルゴリズム

木の剪定

ツリーの剪定アプローチ