Data-mining-dm-bayesian-classification

提供:Dev Guides
移動先:案内検索

データマイニング-ベイジアン分類

ベイジアン分類は、ベイズの定理に基づいています。 ベイズ分類器は統計的分類器です。 ベイジアン分類器は、特定のタプルが特定のクラスに属する確率などのクラスメンバーシップの確率を予測できます。

ベイの定理

ベイズの定理は、トーマス・ベイズにちなんで命名されました。 確率には2種類あります-

  • 事後確率[P(H/X)]
  • 事前確率[P(H)]

Xはデータタプルで、Hは仮説です。

ベイズの定理によると、

P(H/X)= P(X/H)P(H)/P(X)

ベイジアン信念ネットワーク

ベイジアン信念ネットワークは、結合条件付き確率分布を指定します。 これらは、信念ネットワーク、ベイジアンネットワーク、または確率ネットワークとも呼ばれます。

  • 信念ネットワークにより、クラスの条件付き独立性を変数のサブセット間で定義できます。
  • 学習を実行できる因果関係のグラフィカルモデルを提供します。
  • 分類には訓練されたベイジアンネットワークを使用できます。

ベイジアン信念ネットワークを定義する2つのコンポーネントがあります-

  • 有向非巡回グラフ
  • 条件付き確率テーブルのセット

有向非巡回グラフ

  • 有向非巡回グラフの各ノードは、ランダム変数を表します。
  • これらの変数は、離散値でも連続値でもかまいません。
  • これらの変数は、データで指定された実際の属性に対応する場合があります。

有向非巡回グラフ表現

次の図は、6つのブール変数の有向非巡回グラフを示しています。

非周期グラフ

図の弧は、因果的知識の表現を可能にします。 たとえば、肺がんは、その人が喫煙者かどうかだけでなく、その人の肺がんの家族歴の影響も受けます。 変数PositiveXrayは、患者が肺癌を患っていることを知っているので、患者が肺癌の家族歴を持っているか、喫煙者であるかどうかに依存しないことは注目に値します。

条件付き確率表

親ノード、FamilyHistory(FH)、およびSmoker(S)の値の可能な組み合わせを示す変数LungCancer(LC)の値の条件付き確率表は次のとおりです-

確率表