データマイニング-タスク

データマイニングでは、マイニング可能なパターンの種類を扱います。マイニングするデータの種類に基づいて、データマイニングに関与する機能には2つのカテゴリがあります-

記述的
分類と予測

記述関数

説明関数は、データベース内のデータの一般的なプロパティを処理します。ここに説明的な関数のリストがあります-

クラス/概念の説明
頻繁なパターンのマイニング
協会のマイニング
相関のマイニング
クラスターのマイニング

クラス/概念の説明

クラス/コンセプトは、クラスまたは概念に関連付けられるデータを指します。たとえば、ある会社では、販売対象のアイテムのクラスにはコンピューターとプリンターが含まれ、顧客の概念には多額の支出者と予算の支出者が含まれます。このようなクラスまたは概念の説明は、クラス/コンセプトの説明と呼ばれます。これらの説明は、次の2つの方法で導出することができます-

データの特性-これは、調査中のクラスのデータを要約することを指します。調査中のこのクラスは、ターゲットクラスと呼ばれます。
データ差別-それは、事前定義されたグループまたはクラスを持つクラスのマッピングまたは分類を指します。

頻繁なパターンのマイニング

頻繁なパターンは、トランザクションデータで頻繁に発生するパターンです。ここに頻繁なパターンの種類のリストがあります-

頻繁なアイテムセット-牛乳やパンなど、頻繁に一緒に表示されるアイテムのセットを指します。
Frequent Subsequence -次のような頻繁に発生するパターンのシーケンスカメラを購入すると、メモリカードが続きます。
頻繁な下位構造-下位構造は、グラフ、ツリー、ラティスなどのさまざまな構造形式を指し、アイテムセットまたはサブシーケンスと組み合わせることができます。

協会のマイニング

関連付けは、小売販売で頻繁に一緒に購入されるパターンを識別するために使用されます。このプロセスは、データ間の関係を明らかにし、関連付けルールを決定するプロセスを指します。

たとえば、小売業者は、牛乳がパンと一緒に販売される時間の70％、ビスケットがパンと一緒に販売される時間の30％のみを示す関連付けルールを生成します。

相関のマイニング

これは、関連する属性値ペア間または2つのアイテムセット間の興味深い統計的相関関係を明らかにするために実行される一種の追加分析です。

クラスターのマイニング

クラスタは、類似した種類のオブジェクトのグループを指します。クラスター分析とは、互いに非常に類似しているが、他のクラスター内のオブジェクトとは大きく異なるオブジェクトのグループを形成することです。

分類と予測

分類は、データクラスまたは概念を記述するモデルを見つけるプロセスです。目的は、このモデルを使用して、クラスラベルが不明なオブジェクトのクラスを予測できるようにすることです。この派生モデルは、トレーニングデータのセットの分析に基づいています。派生モデルは、次の形式で提示することができます-

分類（IF-THEN）ルール
決定木
数式
ニューラルネットワーク

これらのプロセスに関与する機能のリストは次のとおりです-

分類-クラスラベルが不明なオブジェクトのクラスを予測します。その目的は、データクラスを記述および区別する派生モデルを見つけることです。または概念。派生モデルは、トレーニングデータの分析セットに基づいています。クラスラベルがよく知られているデータオブジェクト。
予測-クラスラベルではなく、欠落または利用できない数値データ値を予測するために使用されます。一般的に、回帰分析は予測に使用されます。予測は、利用可能なデータに基づいた分布傾向の識別にも使用できます。
外れ値分析-外れ値は、そうでないデータオブジェクトとして定義できます。利用可能なデータの一般的な動作またはモデルに準拠します。
進化分析-進化分析は、説明とモデルを指します動作が時間とともに変化するオブジェクトの規則性または傾向。