KNIME-ワークフローの探索

あなたがワークフロー内のノードをチェックアウトする場合、あなたはそれが次が含まれていることがわかります-

ファイルリーダー、
カラーマネージャー
パーティショニング
決定木学習器
決定木予測子
スコア
インタラクティブテーブル
散布図
統計

これらは、ここに示すように*概要*ビューで簡単に見ることができます-

各ノードは、ワークフローの特定の機能を提供します。次に、これらのノードを構成して、目的の機能を満たす方法を検討します。ワークフローを調査する現在のコンテキストでは、関連するノードのみを説明することに注意してください。

ファイルリーダー

ファイルリーダーノードは、以下のスクリーンショットに示されています-

ワークフローの作成者によって提供されるウィンドウの上部にいくつかの説明があります。このノードはアダルトデータセットを読み取ることを示しています。ファイルの名前は、ノードシンボルの下の説明からわかるように、 adult.csv です。 File Reader には2つの出力があります-1つは Color Manager ノードに行き、もう1つは Statistics ノードに行きます。

ファイルマネージャ*を右クリックすると、ポップアップメニューが次のように表示されます-

ファイルマネージャー

*Configure* メニューオプションを使用すると、ノードを構成できます。 *Execute* メニューはノードを実行します。 ノードが既に実行されていて、緑色の状態の場合、このメニューは無効になっていることに注意してください。 また、[メモの説明を編集]メニューオプションがあることにも注意してください。 これにより、ノードの説明を記述できます。

今、 Configure メニューオプションを選択すると、それはここのスクリーンショットに見られるadult.csvファイルからのデータを含む画面を示しています-

Adult CSV File

このノードを実行すると、データがメモリにロードされます。データをロードするプログラムコード全体は、ユーザーには表示されません。このようなノードの有用性を理解できるようになりました-コーディングは不要です。

次のノードは Color Manager です。

カラーマネージャー

*Color Manager* ノードを選択し、右クリックしてその設定に入ります。 色設定ダイアログが表示されます。 ドロップダウンリストから *income* 列を選択します。

あなたの画面は次のようになります-

カラーマネージャー

2つの制約が存在することに注意してください。収入が50K未満の場合、データポイントは緑色になり、それ以上の場合は赤色になります。この章の後半で散布図を見ると、データポイントマッピングが表示されます。

パーティショニング

機械学習では、通常、利用可能なデータ全体を2つの部分に分割します。大きい部分はモデルのトレーニングに使用され、小さい部分はテストに使用されます。データのパーティション分割に使用されるさまざまな戦略があります。

目的のパーティショニングを定義するには、 Partitioning ノードを右クリックして、 Configure オプションを選択します。次の画面が表示されます-

パーティショニング

この場合、システムモデラーは Relative （％）モードを使用しており、データは80:20の比率で分割されています。分割中に、データポイントはランダムに取得されます。これにより、テストデータが偏らないようになります。線形サンプリングの場合、テスト中に使用される残りの20％データは、収集中に完全にバイアスされる可能性があるため、トレーニングデータを正しく表さない場合があります。

データ収集中にランダム性が保証されていることが確実な場合は、線形サンプリングを選択できます。データをモデルのトレーニングの準備ができたら、次のノード（決定ツリー学習器）にデータを送ります。

決定木学習器

名前が示す Decision Tree Learner ノードは、トレーニングデータを使用してモデルを構築します。以下のスクリーンショットに描かれているこのノードの構成設定を確認してください-

デシジョンツリーラーナー

ご覧のように、 Class は income です。したがって、ツリーは収入列に基づいて構築され、それがこのモデルで達成しようとしているものです。私たちは、収入が5万人より多いか少ない人々の分離を望んでいます。

このノードが正常に実行されると、モデルをテストする準備が整います。

決定木予測子

ディシジョンツリー予測ノードは、開発されたモデルをテストデータセットに適用し、モデル予測を追加します。

ツリー予測

予測子の出力は、2つの異なるノード- Scorer および Scatter Plot に供給されます。次に、予測の出力を調べます。

得点者

このノードは*混同行列*を生成します。表示するには、ノードを右クリックします。次のポップアップメニューが表示されます-

スコアラー

*View：Confusion Matrix* メニューオプションをクリックすると、ここのスクリーンショットに示すように、別のウィンドウにマトリックスがポップアップします-

混同マトリックス

これは、開発したモデルの精度が83.71％であることを示しています。これに満足していない場合は、モデル構築の他のパラメーターをいじることができます。特に、データを再確認してクレンジングすることができます。

散布図

データ分布の散布図を表示するには、*散布図*ノードを右クリックし、メニューオプション*インタラクティブビュー：散布図*を選択します。次のプロットが表示されます-

散布図

このプロットは、2つの異なる色のドット（赤と青）の50Kのしきい値に基づいて、さまざまな所得グループの人々の分布を示しています。これらは、 Color Manager ノードで設定された色です。分布は、x軸にプロットされている年齢に関連しています。ノードの構成を変更することにより、x軸に異なる機能を選択できます。

ここでは、x軸の機能として marital-status を選択した構成ダイアログが表示されます。

婚ital状況

これで、KNIMEが提供する事前定義モデルに関する説明は完了です。自習用のモデルでは、他の2つのノード（統計とインタラクティブテーブル）を使用することをお勧めします。

チュートリアルの最も重要な部分である、独自のモデルの作成に移りましょう。

Knime-exploring-workflow

目次

KNIME-ワークフローの探索

ファイルリーダー

カラーマネージャー

パーティショニング

決定木学習器

決定木予測子

得点者

散布図