Data-mining-dm-classification-methods

提供:Dev Guides
移動先:案内検索

その他の分類方法

ここでは、遺伝的アルゴリズム、ラフセットアプローチ、ファジーセットアプローチなどの他の分類方法について説明します。

遺伝的アルゴリズム

遺伝的アルゴリズムの考え方は、自然の進化に由来しています。 遺伝的アルゴリズムでは、まず最初に初期母集団が作成されます。 この初期集団は、ランダムに生成されたルールで構成されています。 ビットの文字列で各ルールを表すことができます。

たとえば、特定のトレーニングセットでは、サンプルはA1やA2などの2つのブール属性によって記述されます。 そして、このトレーニングセットには、C1やC2などの2つのクラスが含まれています。

ルール IF A1 AND NOT A2 THEN C2 をビット文字列 100 にエンコードできます。 このビット表現では、左端の2つのビットはそれぞれ属性A1とA2を表します。

同様に、 IF NOT A1 AND NOT A2 THEN C1001 としてエンコードできます。

-属性にK値があり、K> 2の場合、Kビットを使用して属性値をエンコードできます。 クラスも同じ方法でエンコードされます。

覚えておくべき点-

  • 適者生存の概念に基づいて、現在の人口の適者ルールとこれらのルールの子孫値から構成される新しい人口が形成されます。
  • ルールの適合性は、トレーニングサンプルのセットの分類精度によって評価されます。
  • クロスオーバーや突然変異などの遺伝的演算子は、子孫を作成するために適用されます。
  • クロスオーバーでは、ルールのペアからの部分文字列が交換されて、新しいルールのペアが形成されます。
  • 突然変異では、ルールの文字列でランダムに選択されたビットが反転します。

ラフセットアプローチ

ラフセットアプローチを使用して、不正確でノイズの多いデータ内の構造的関係を発見できます。

-このアプローチは、離散値属性にのみ適用できます。 したがって、連続値属性は、使用する前に離散化する必要があります。

ラフ集合理論は、与えられたトレーニングデータ内の等価クラスの確立に基づいています。 等価クラスを形成するタプルは識別できません。 これは、サンプルがデータを記述する属性に関して同一であることを意味します。

与えられた実世界のデータにはいくつかのクラスがあり、それらは利用可能な属性の観点から区別できません。 ラフセットを使用して、そのようなクラスを*大まかに*定義できます。

与えられたクラスCの場合、大まかなセット定義は次のように2つのセットで近似されます-

  • * Cの下位近似-Cの下位近似は、属性の知識に基づいてクラスCに属することが確実なすべてのデータタプルで構成されます。
  • * Cの上位近似*-Cの上位近似は、属性の知識に基づいてすべてのタプルで構成され、Cに属していないとは記述できません。

次の図は、クラスCの上限と下限の近似を示しています-

概算

ファジーセットアプローチ

ファジー集合理論は、可能性理論とも呼ばれます。 この理論は、1965年にLotfi Zadehによって、* 2値論理*および*確率論*の代替として提案されました。 この理論により、高レベルの抽象化で作業することができます。 また、データの不正確な測定に対処する手段も提供します。

また、ファジーセット理論により、曖昧または不正確な事実に対処することができます。 たとえば、一連の高収入のメンバーであることは正確です(例: 50,000ドルが高ければ、49,000ドルと48,000ドル)。 要素がSまたはその補数に属する従来のCRISPセットとは異なり、ファジーセット理論では、要素は複数のファジーセットに属することができます。

たとえば、収入値$ 49,000は、中度および高度のファジーセットの両方に属しますが、程度は異なります。 この収入値のファジーセット表記は次のとおりです-

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

ここで、「m」は、それぞれmedium_incomeおよびhigh_incomeのファジーセットで動作するメンバーシップ関数です。 この表記は、次のように図式的に示すことができます-

ファジーアプローチ