Weka-機能選択

データベースに多数の属性が含まれる場合、現在探している分析では重要にならないいくつかの属性があります。したがって、データセットから不要な属性を削除することは、優れた機械学習モデルを開発する上で重要なタスクになります。

データセット全体を視覚的に調べて、無関係な属性を決定できます。これは、前のレッスンで見たスーパーマーケットの場合のように、多数の属性を含むデータベースにとっては大きなタスクです。幸いなことに、WEKAは機能選択のための自動化ツールを提供します。

この章では、多数の属性を含むデータベースでこの機能を示します。

データのロード

WEKAエクスプローラーの Preprocess タグで、システムにロードする labor.arff ファイルを選択します。あなたがデータをロードすると、次の画面が表示されます-

データのロード

17個の属性があることに注意してください。私たちのタスクは、分析に関係のない属性の一部を削除することにより、削減されたデータセットを作成することです。

特徴抽出

属性の選択 TABをクリックします。次の画面が表示されます-

属性の選択

属性エバリュエーター*および*検索方法*の下に、いくつかのオプションがあります。ここではデフォルトを使用します。 *属性選択モード*で、完全なトレーニングセットオプションを使用します。

[開始]ボタンをクリックして、データセットを処理します。次の出力が表示されます-

データセットの開始

結果ウィンドウの下部に、 Selected 属性のリストが表示されます。視覚的な表現を得るには、*結果*リストの結果を右クリックします。

出力は、次のスクリーンショットに示されています-

スクリーンショット出力

正方形をクリックすると、さらに分析するためのデータプロットが表示されます。典型的なデータプロットを以下に示します-

データプロット

これは、前の章で見たものと似ています。結果を分析するために利用可能なさまざまなオプションを試してみてください。

次は何ですか？

これまでに、機械学習モデルの迅速な開発におけるWEKAの力を見てきました。使用したのは、これらのモデルを開発するための Explorer と呼ばれるグラフィカルツールです。 WEKAは、エクスプローラーで提供されるよりも強力なコマンドラインインターフェイスも提供します。

G * UI Chooser アプリケーションで *Simple CLI ボタンをクリックすると、このコマンドラインインターフェイスが起動します。これは、以下のスクリーンショットに示されています-

Gui Chooser

下部の入力ボックスにコマンドを入力します。エクスプローラーでこれまでに行ったすべての操作に加えて、さらに多くの操作を実行できます。詳細については、WEKA documentation（https://www.cs.waikato.ac.nz/ml/weka/documentationl）を参照してください。

最後に、WEKAはJavaで開発され、そのAPIへのインターフェースを提供します。あなたがJava開発者であり、自分のJavaプロジェクトにWEKA ML実装を組み込みたい場合は、簡単に行うことができます。

結論

WEKAは、機械学習モデルを開発するための強力なツールです。最も広く使用されているいくつかのMLアルゴリズムの実装を提供します。これらのアルゴリズムをデータセットに適用する前に、データを前処理することもできます。サポートされているアルゴリズムのタイプは、分類、クラスター、関連付け、および選択属性に分類されています。処理のさまざまな段階での結果は、美しく強力な視覚表現で視覚化できます。これにより、データサイエンティストは、データセットにさまざまな機械学習手法をすばやく適用し、結果を比較して、最終使用に最適なモデルを作成することが容易になります。

Weka-feature-selection

目次

Weka-機能選択

データのロード

特徴抽出

次は何ですか？

結論