Data-mining-dm-bayesian-classification
提供:Dev Guides
データマイニング-ベイジアン分類
ベイジアン分類は、ベイズの定理に基づいています。 ベイズ分類器は統計的分類器です。 ベイジアン分類器は、特定のタプルが特定のクラスに属する確率などのクラスメンバーシップの確率を予測できます。
ベイの定理
ベイズの定理は、トーマス・ベイズにちなんで命名されました。 確率には2種類あります-
- 事後確率[P(H/X)]
- 事前確率[P(H)]
Xはデータタプルで、Hは仮説です。
ベイズの定理によると、
P(H/X)= P(X/H)P(H)/P(X)
ベイジアン信念ネットワーク
ベイジアン信念ネットワークは、結合条件付き確率分布を指定します。 これらは、信念ネットワーク、ベイジアンネットワーク、または確率ネットワークとも呼ばれます。
- 信念ネットワークにより、クラスの条件付き独立性を変数のサブセット間で定義できます。
- 学習を実行できる因果関係のグラフィカルモデルを提供します。
- 分類には訓練されたベイジアンネットワークを使用できます。
ベイジアン信念ネットワークを定義する2つのコンポーネントがあります-
- 有向非巡回グラフ
- 条件付き確率テーブルのセット
有向非巡回グラフ
- 有向非巡回グラフの各ノードは、ランダム変数を表します。
- これらの変数は、離散値でも連続値でもかまいません。
- これらの変数は、データで指定された実際の属性に対応する場合があります。
有向非巡回グラフ表現
次の図は、6つのブール変数の有向非巡回グラフを示しています。
図の弧は、因果的知識の表現を可能にします。 たとえば、肺がんは、その人が喫煙者かどうかだけでなく、その人の肺がんの家族歴の影響も受けます。 変数PositiveXrayは、患者が肺癌を患っていることを知っているので、患者が肺癌の家族歴を持っているか、喫煙者であるかどうかに依存しないことは注目に値します。
条件付き確率表
親ノード、FamilyHistory(FH)、およびSmoker(S)の値の可能な組み合わせを示す変数LungCancer(LC)の値の条件付き確率表は次のとおりです-