機械学習-監視あり

教師あり学習は、トレーニングマシンに含まれる学習の重要なモデルの1つです。この章では、同じことについて詳しく説明します。

教師あり学習のアルゴリズム

教師あり学習にはいくつかのアルゴリズムが利用できます。教師あり学習で広く使用されているアルゴリズムのいくつかは以下のとおりです-

k最近傍
決定木
ナイーブベイズ
ロジスティック回帰
サポートベクターマシン

この章で先に進む際に、各アルゴリズムについて詳しく説明します。

k最近傍

単純にkNNと呼ばれるk-Nearest Neighboursは、分類および回帰問題の解決に使用できる統計的手法です。 kNNを使用して未知のオブジェクトを分類する場合について説明します。以下の画像に示すようにオブジェクトの分布を考慮してください-

最近傍

ソース：

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

この図は、赤、青、緑の色でマークされた3種類のオブジェクトを示しています。あなたが上記のデータセットでkNN分類器を実行すると、オブジェクトの各タイプの境界は以下のようにマークされます-

データセット境界

ソース：

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

ここで、赤、緑、または青として分類する新しい未知のオブジェクトを考えてみましょう。これを次の図に示します。

図解

視覚的に見ると、未知のデータポイントは青いオブジェクトのクラスに属します。数学的には、この未知のポイントの距離を、データセット内の他のすべてのポイントと測定することで結論付けることができます。そうすると、その隣人のほとんどが青色であることがわかります。赤と緑のオブジェクトまでの平均距離は、青のオブジェクトまでの平均距離よりも確実に長くなります。したがって、この未知のオブジェクトは、青のクラスに属するものとして分類できます。

kNNアルゴリズムは、回帰問題にも使用できます。 kNNアルゴリズムは、ほとんどのMLライブラリですぐに使用できます。

決定木

フローチャート形式の単純な決定木は以下に示されています-

フローチャート形式

このフローチャートに基づいて入力データを分類するコードを作成します。フローチャートは自明であり、簡単です。このシナリオでは、受信メールを分類して、いつ読むかを決定しようとしています。

実際には、決定木は大きく複雑になる可能性があります。これらのツリーを作成およびトラバースするには、いくつかのアルゴリズムを使用できます。機械学習マニアとして、意思決定ツリーを作成およびトラバースするこれらの手法を理解し、習得する必要があります。

ナイーブベイズ

Naive Bayesは、分類子の作成に使用されます。フルーツバスケットからさまざまな種類の果物を整理（分類）したいとします。果物の色、サイズ、形などの機能を使用できます。たとえば、色が赤く、形が丸く、直径が約10 cmの果物はすべてアップルと見なされます。したがって、モデルをトレーニングするには、これらの機能を使用して、特定の機能が目的の制約に一致する確率をテストします。次に、さまざまな機能の確率を組み合わせて、特定の果物がリンゴである確率を求めます。 Naive Bayesでは通常、分類に少数のトレーニングデータが必要です。

ロジスティック回帰

次の図をご覧ください。 XY平面内のデータポイントの分布を示しています。

分布データポイント

図から、赤い点と緑の点の分離を視覚的に調べることができます。これらのドットを分離するために境界線を引くことができます。ここで、新しいデータポイントを分類するには、ポイントが線のどちら側にあるかを判断するだけです。

サポートベクターマシン

次のデータ分布を見てください。ここでは、3つのクラスのデータを線形に分離することはできません。境界曲線は非線形です。そのような場合、曲線の方程式を見つけることは複雑な仕事になります。

非線形

ソース：http://uc-r.github.io/svm

サポートベクターマシン（SVM）は、このような状況で分離境界を決定するのに便利です。

Machine-learning-supervised