Data-mining-dm-tasks

提供:Dev Guides
移動先:案内検索

データマイニング-タスク

データマイニングでは、マイニング可能なパターンの種類を扱います。 マイニングするデータの種類に基づいて、データマイニングに関与する機能には2つのカテゴリがあります-

  • 記述的
  • 分類と予測

記述関数

説明関数は、データベース内のデータの一般的なプロパティを処理します。 ここに説明的な関数のリストがあります-

  • クラス/概念の説明
  • 頻繁なパターンのマイニング
  • 協会のマイニング
  • 相関のマイニング
  • クラスターのマイニング

クラス/概念の説明

クラス/コンセプトは、クラスまたは概念に関連付けられるデータを指します。 たとえば、ある会社では、販売対象のアイテムのクラスにはコンピューターとプリンターが含まれ、顧客の概念には多額の支出者と予算の支出者が含まれます。 このようなクラスまたは概念の説明は、クラス/コンセプトの説明と呼ばれます。 これらの説明は、次の2つの方法で導出することができます-

  • データの特性-これは、調査中のクラスのデータを要約することを指します。 調査中のこのクラスは、ターゲットクラスと呼ばれます。
  • データ差別-それは、事前定義されたグループまたはクラスを持つクラスのマッピングまたは分類を指します。

頻繁なパターンのマイニング

頻繁なパターンは、トランザクションデータで頻繁に発生するパターンです。 ここに頻繁なパターンの種類のリストがあります-

  • 頻繁なアイテムセット-牛乳やパンなど、頻繁に一緒に表示されるアイテムのセットを指します。
  • Frequent Subsequence -次のような頻繁に発生するパターンのシーケンス カメラを購入すると、メモリカードが続きます。
  • 頻繁な下位構造-下位構造は、グラフ、ツリー、ラティスなどのさまざまな構造形式を指し、アイテムセットまたはサブシーケンスと組み合わせることができます。

協会のマイニング

関連付けは、小売販売で頻繁に一緒に購入されるパターンを識別するために使用されます。 このプロセスは、データ間の関係を明らかにし、関連付けルールを決定するプロセスを指します。

たとえば、小売業者は、牛乳がパンと一緒に販売される時間の70%、ビスケットがパンと一緒に販売される時間の30%のみを示す関連付けルールを生成します。

相関のマイニング

これは、関連する属性値ペア間または2つのアイテムセット間の興味深い統計的相関関係を明らかにするために実行される一種の追加分析です。

クラスターのマイニング

クラスタは、類似した種類のオブジェクトのグループを指します。 クラスター分析とは、互いに非常に類似しているが、他のクラスター内のオブジェクトとは大きく異なるオブジェクトのグループを形成することです。

分類と予測

分類は、データクラスまたは概念を記述するモデルを見つけるプロセスです。 目的は、このモデルを使用して、クラスラベルが不明なオブジェクトのクラスを予測できるようにすることです。 この派生モデルは、トレーニングデータのセットの分析に基づいています。 派生モデルは、次の形式で提示することができます-

  • 分類(IF-THEN)ルール
  • 決定木
  • 数式
  • ニューラルネットワーク

これらのプロセスに関与する機能のリストは次のとおりです-

  • 分類-クラスラベルが不明なオブジェクトのクラスを予測します。 その目的は、データクラスを記述および区別する派生モデルを見つけることです。 または概念。 派生モデルは、トレーニングデータの分析セットに基づいています。 クラスラベルがよく知られているデータオブジェクト。
  • 予測-クラスラベルではなく、欠落または利用できない数値データ値を予測するために使用されます。 一般的に、回帰分析は予測に使用されます。 予測は、利用可能なデータに基づいた分布傾向の識別にも使用できます。
  • 外れ値分析-外れ値は、そうでないデータオブジェクトとして定義できます。 利用可能なデータの一般的な動作またはモデルに準拠します。
  • 進化分析-進化分析は、説明とモデルを指します 動作が時間とともに変化するオブジェクトの規則性または傾向。

データマイニングタスクプリミティブ

  • データマイニングクエリの形式でデータマイニングタスクを指定できます。
  • このクエリはシステムへの入力です。
  • データマイニングクエリは、データマイニングタスクプリミティブの観点から定義されます。

-これらのプリミティブを使用すると、データマイニングシステムと対話形式で通信できます。 ここにデータマイニングタスクプリミティブのリストがあります-

  • マイニングするタスク関連データのセット。
  • 採掘する知識の種類。
  • 発見プロセスで使用される背景知識。
  • パターン評価のための興味深い尺度としきい値。
  • 発見されたパターンを視覚化するための表現。

マイニングするタスク関連データのセット

これは、ユーザーが関心を持っているデータベースの部分です。 この部分には次のものが含まれます-

  • データベース属性
  • 対象のデータウェアハウスディメンション

採掘する知識の種類

実行される機能の種類を指します。 これらの機能は-

  • 特徴づけ
  • 差別
  • 関連付けと相関分析
  • 分類
  • 予測
  • クラスタリング
  • 外れ値分析
  • 進化分析

背景知識

背景知識により、複数の抽象化レベルでデータをマイニングできます。 たとえば、概念階層は、抽象化の複数のレベルでデータをマイニングできるようにする背景知識の1つです。

パターン評価のための興味深い尺度としきい値

これは、知識発見のプロセスによって発見されたパターンを評価するために使用されます。 さまざまな種類の知識に対して、さまざまな興味深い尺度があります。

発見されたパターンを視覚化するための表現

これは、検出されたパターンが表示されるフォームを指します。 これらの表現には以下が含まれます。 −

  • 規則
  • テーブル
  • チャート
  • グラフ
  • 決定木
  • キューブ