Data-mining-dm-classification-prediction
データマイニング-分類と予測
重要なクラスを記述するモデルを抽出したり、将来のデータの傾向を予測したりするために使用できるデータ分析には、2つの形式があります。 これらの2つの形式は次のとおりです-
- 分類
- 予測
分類モデルは、カテゴリークラスラベルを予測します。予測モデルは連続値関数を予測します。 たとえば、銀行ローンの申請を安全または危険のいずれかに分類する分類モデルや、収入と職業を考慮したコンピューター機器での潜在的な顧客の支出をドルで予測する予測モデルを構築できます。
分類とは何ですか?
以下は、データ分析タスクが分類である場合の例です-
- 銀行の融資担当者は、どの顧客(融資申請者)が危険であるか、または安全であるかを知るためにデータを分析したいと考えています。
- 会社のマーケティングマネージャーは、新しいコンピューターを購入する特定のプロファイルを持つ顧客を分析する必要があります。
上記の両方の例で、カテゴリカルラベルを予測するモデルまたは分類子が構築されます。 これらのラベルは、融資申請データについては危険または安全であり、マーケティングデータについてはイエスまたはノーです。
予測とは何ですか?
以下は、データ分析タスクが予測である場合の例です-
マーケティングマネージャーが、会社での販売中に特定の顧客がいくら使うかを予測する必要があるとします。 この例では、数値を予測することに煩わされています。 したがって、データ分析タスクは数値予測の一例です。 この場合、連続値関数または順序付けされた値を予測するモデルまたは予測子が構築されます。
注-回帰分析は、数値予測に最もよく使用される統計手法です。
分類の仕組み
上記で説明した銀行ローン申請書の助けを借りて、分類の仕組みを理解しましょう。 データ分類プロセスには2つのステップが含まれています-
- 分類子またはモデルの構築
- 分類のための分類子の使用
分類子またはモデルの構築
- このステップは、学習ステップまたは学習フェーズです。
- このステップでは、分類アルゴリズムが分類子を作成します。
- 分類子は、データベースタプルとそれに関連付けられたクラスラベルで構成されるトレーニングセットから構築されます。
- トレーニングセットを構成する各タプルは、カテゴリまたはクラスと呼ばれます。 これらのタプルは、サンプル、オブジェクト、またはデータポイントとも呼ばれます。
分類のための分類子の使用
このステップでは、分類に分類器が使用されます。 ここでは、テストデータを使用して分類ルールの精度を推定します。 精度が許容範囲内であると見なされる場合、新しいデータタプルに分類ルールを適用できます。
分類と予測の問題
主な問題は、分類と予測のためのデータの準備です。 データの準備には、次のアクティビティが含まれます-
- データクリーニング-データクリーニングには、ノイズの除去と欠損値の処理が含まれます。 ノイズは、平滑化手法を適用することで除去され、欠損値の問題は、欠損値をその属性で最も一般的に発生する値に置き換えることで解決されます。
- 関連性分析-データベースにも関連性のない属性が含まれている場合があります。 相関分析は、特定の2つの属性が関連しているかどうかを知るために使用されます。
- データの変換と削減-データは次のいずれかの方法で変換できます。
- 正規化-データは正規化を使用して変換されます。 正規化では、指定された小さな範囲内に収まるように、特定の属性のすべての値をスケーリングします。 正規化は、学習ステップで、ニューラルネットワークまたは測定を伴う方法が使用される場合に使用されます。
- 一般化-データは、上位概念に一般化することで変換することもできます。 この目的のために、概念階層を使用できます。
注-データは、ウェーブレット変換、ビニング、ヒストグラム分析、クラスタリングなどの他の方法によっても削減できます。
分類法と予測法の比較
ここに分類と予測の方法を比較するための基準があります-
- 精度-分類器の精度は、分類器の能力を指します。 クラスラベルを正しく予測し、予測子の精度は、特定の予測子が新しいデータの予測属性の値をどれだけうまく推測できるかを示します。
- 速度-これは、分類子または予測子を生成および使用する際の計算コストを指します。
- 堅牢性-ノイズまたはノイズのあるデータから正しい予測を行う分類器または予測器の機能を指します。
- スケーラビリティ-スケーラビリティとは、分類子または予測子を効率的に構築する能力のことです。大量のデータが与えられた。
- 解釈可能性-分類子または予測子が理解する範囲を指します。