Pybrain-datasets-types
PyBrain-データセットの種類
データセットは、ネットワークでテスト、検証、トレーニングするために提供されるデータです。 使用するデータセットのタイプは、機械学習で実行するタスクによって異なります。 この章では、さまざまなデータセットタイプについて説明します。
私たちは、次のパッケージを追加することにより、データセットを扱うことができます-
SupervisedDataSet
SupervisedDataSetは、 _ input_ および target のフィールドで構成されています。 これはデータセットの最も単純な形式であり、主に教師付き学習タスクに使用されます。
以下は、コードでそれを使用する方法です-
SupervisedDataSetで利用可能なメソッドは次のとおりです-
addSample(inp、target)
このメソッドは、入力とターゲットの新しいサンプルを追加します。
splitWithProportion(proportion = 0.10)
これにより、データセットが2つの部分に分割されます。 最初の部分には、入力として指定されたデータセットの%があります。つまり、入力が.10の場合、データセットの10%とデータの90%です。 あなたの選択に従って割合を決めることができます。 分割されたデータセットは、ネットワークのテストとトレーニングに使用できます。
- copy()*-データセットのディープコピーを返します。
- clear()*-データセットをクリアします。
saveToFile(ファイル名、フォーマット=なし、** kwargs)
ファイル名で指定されたファイルにオブジェクトを保存します。
例
以下は、SupervisedDatasetを使用した実際の例です-
出力
上記のプログラムの出力は次のとおりです-
ClassificationDataSet
このデータセットは、主に分類の問題に対処するために使用されます。 入力、ターゲットフィールド、および指定されたターゲットの自動バックアップである「クラス」と呼ばれる追加フィールドを取ります。 たとえば、出力は1または0であるか、指定された入力に基づいて出力とともにグループ化されます。つまり、特定の1つのクラスに分類されます。
コードでそれを使用する方法は次のとおりです-
ClassificationDataSetで利用可能なメソッドは次のとおりです-
例
上記の例で使用されるデータセットは数字のデータセットであり、クラスは0〜9であるため、10のクラスがあります。 入力は64、ターゲットは1、クラスは10です。
このコードは、データセットを使用してネットワークをトレーニングし、トレーニングエラーと検証エラーのグラフを出力します。 また、次のようなテストデータのパーセント誤差を示します-