Weka-preprocessing-data
Weka-データの前処理
フィールドから収集されるデータには、誤った分析につながる多くの不要なものが含まれています。 たとえば、データにはnullフィールドが含まれる場合があり、現在の分析とは無関係な列が含まれる場合があります。 したがって、データは、求める分析のタイプの要件を満たすために前処理する必要があります。 これは前処理モジュールで行われます。
前処理で使用可能な機能を示すために、インストールで提供される Weather データベースを使用します。
ファイルを開くと、画面は次のようになります-
この画面には、ロードされたデータに関するいくつかの情報が表示されます。詳細については、この章で説明します。
データを理解する
まず、強調表示された Current relation サブウィンドウを見てみましょう。 現在ロードされているデータベースの名前が表示されます。 あなたはこのサブウィンドウから2点を推測することができます-
- 14個のインスタンス(テーブル内の行数)があります。
- この表には、次のセクションで説明する5つの属性(フィールド)が含まれています。
左側で、データベースのさまざまなフィールドを表示する Attributes サブウィンドウに注目してください。
最初に温度属性を選択しましょう。 それをクリックすると、次の画面が表示されます-
- 選択された属性*サブウィンドウでは、次を観察することができます-
- 属性の名前とタイプが表示されます。
- temperature 属性のタイプは Nominal です。
- *欠落*値の数はゼロです。
- 一意の値を持たない3つの異なる値があります。
- この情報の下の表は、このフィールドの公称値を高温、マイルド、低温として示しています。
- また、各公称値のパーセンテージでカウントと重量を示します。
ウィンドウの下部に、 class 値の視覚的表現が表示されます。
属性を削除する
多くの場合、モデルの構築に使用するデータには、多くの無関係なフィールドが含まれています。 たとえば、顧客データベースには、彼の信用格付けの分析に関連する彼の携帯電話番号が含まれている場合があります。
属性を削除するには、それらを選択して、下部にある[削除]ボタンをクリックします。
選択した属性がデータベースから削除されます。 データを完全に前処理した後、モデル作成のためにデータを保存できます。
次に、このデータにフィルターを適用して、データを前処理する方法を学習します。
フィルターの適用
アソシエーションルールマイニングなどの機械学習手法には、カテゴリデータが必要なものがあります。 フィルターの使用を説明するために、2つの numeric 属性- temperature および humidity を含む weather-numeric.arff データベースを使用します。
生データにフィルターを適用して、これらを nominal に変換します。 *フィルター*サブウィンドウで*選択*ボタンをクリックし、次のフィルターを選択します-
- 適用*ボタンをクリックして、*温度*および/または*湿度*属性を調べます。 これらが数値型から名義型に変更されたことがわかります。
ここで別のフィルターを見てみましょう。 play を決定するための最適な属性を選択するとします。 次のフィルターを選択して適用します-
データベースから温度と湿度の属性が削除されることがわかります。
データの前処理に満足したら、「保存」をクリックしてデータを保存します… ボタン。 この保存されたファイルをモデル作成に使用します。
次の章では、事前定義されたいくつかのMLアルゴリズムを使用したモデル構築について説明します。