Weka-クラスタリング

クラスタリングアルゴリズムは、データセット全体で類似したインスタンスのグループを見つけます。 WEKAは、EM、FilteredClusterer、HierarchicalClusterer、SimpleKMeansなどのいくつかのクラスタリングアルゴリズムをサポートしています。 WEKA機能を十分に活用するには、これらのアルゴリズムを完全に理解する必要があります。

分類の場合と同様に、WEKAでは検出されたクラスターをグラフィカルに視覚化できます。クラスタリングを実証するために、提供されたirisデータベースを使用します。データセットには、それぞれ50インスタンスの3つのクラスが含まれています。各クラスは、アイリス植物の種類を指します。

データのロード

WEKAエクスプローラーで、 Preprocess タブを選択します。 ファイルを開く*をクリックしてください… オプションを選択し、ファイル選択ダイアログで *iris.arff ファイルを選択します。データをロードすると、画面は次のようになります-

スクリーンルックス

150個のインスタンスと5個の属性があることがわかります。属性の名前は、 sepallength 、 sepalwidth 、 petallength 、 petalwidth 、および class としてリストされています。最初の4つの属性は数値型ですが、クラスは3つの異なる値を持つ名義型です。各属性を調べて、データベースの機能を理解します。このデータの前処理は行わず、すぐにモデルの構築に進みます。

クラスタリング

*Cluster* TABをクリックして、ロードされたデータにクラスタリングアルゴリズムを適用します。 [選択]ボタンをクリックします。 次の画面が表示されます-

クラスタータブ

ここで、クラスタリングアルゴリズムとして EM を選択します。 *クラスタモード*サブウィンドウで、以下のスクリーンショットに示すように*クラスタ評価*クラスにオプションを選択します-

クラスタリングアルゴリズム

[開始]ボタンをクリックして、データを処理します。しばらくすると、結果が画面に表示されます。

次に、結果を調べてみましょう。

出力を調べる

データ処理の出力は、以下の画面に示されています-

出力の調査

出力画面から、あなたはそれを観察することができます-

データベースで5つのクラスター化されたインスタンスが検出されました。
Cluster 0 はsetosa、 Cluster 1 はvirginica、 Cluster 2 はversicolorを表しますが、最後の2つのクラスターにはクラスが関連付けられていません。

出力ウィンドウを上にスクロールすると、検出されたさまざまなクラスターの各属性の平均と標準偏差を示す統計も表示されます。これは、以下のスクリーンショットに示されています-

検出されたクラスター

次に、クラスターの視覚的表現を見ていきます。

クラスターの視覚化

クラスターを視覚化するには、結果リスト*の *EM 結果を右クリックします。次のオプションが表示されます-

クラスター結果リスト

[クラスターの割り当てを視覚化する]を選択します。次の出力が表示されます-

クラスターの割り当て

分類の場合と同様に、正しく識別されたインスタンスと誤って識別されたインスタンスの区別に気付くでしょう。 X軸とY軸を変更して結果を分析することで、いろいろ試してみることができます。分類の場合のようにジッタリングを使用して、正しく識別されたインスタンスの集中度を調べることができます。視覚化プロットの操作は、分類の場合に学習した操作に似ています。

階層クラスタリングの適用

WEKAの威力を示すために、別のクラスタリングアルゴリズムのアプリケーションを見てみましょう。 WEKAエクスプローラーで、以下のスクリーンショットに示すように、MLアルゴリズムとして HierarchicalClusterer を選択します-

階層クラスター化ツール

[クラスター評価のクラス]に[クラスターモード]を選択し、[開始]ボタンをクリックします。次の出力が表示されます-

クラスター評価

結果リスト*には、2つの結果がリストされていることに注意してください。最初の結果はEMの結果で、2番目の結果は現在の階層です。同様に、複数のMLアルゴリズムを同じデータセットに適用し、それらの結果をすばやく比較できます。

このアルゴリズムによって生成されたツリーを調べると、次の出力が表示されます-

アルゴリズムの調査

次の章では、MLアルゴリズムの Associate タイプについて学習します。

Weka-clustering