Machine-learning-unsupervised

提供:Dev Guides
移動先:案内検索

機械学習-監視なし

これまでに見てきたことは、マシンがターゲットの解決策を見つけられるようにすることです。 回帰では、マシンをトレーニングして将来の値を予測します。 分類では、定義されたカテゴリの1つにある未知のオブジェクトを分類するようにマシンをトレーニングします。 つまり、データXのYを予測できるようにマシンをトレーニングしています。 膨大なデータセットがあり、カテゴリを推定しない場合、教師あり学習を使用してマシンをトレーニングすることは困難です。 マシンが数ギガバイトとテラバイトで実行されているビッグデータを検索して分析し、このデータに非常に多くの明確なカテゴリが含まれていると言えたらどうでしょうか?

例として、投票者のデータを考えます。 各投票者からのいくつかの入力(これらはAI用語では機能と呼ばれます)を検討することで、X政党に投票する投票者が非常に多く、Yに投票する投票者が非常に多いとマシンに予測させます。 したがって、一般的には、マシンに膨大なデータポイントXのセットを与えて、「Xについて教えていただけますか?」 または、「Xから作成できる5つの最高のグループは何ですか?」などの質問かもしれません。 または、「Xで最も頻繁に発生する3つの機能は何ですか?」のようにもなります。

これがまさに、教師なし学習のすべてです。

教師なし学習のアルゴリズム

ここで、教師なし機械学習の分類に広く使用されているアルゴリズムの1つについて説明します。

k-meansクラスタリング

米国の2000年と2004年の大統領選挙は近かった-非常に近い。 候補者が受け取った人気投票の最大の割合は50.7%で、最低は47.9%でした。 有権者の一部が陣営を変えたとしたら、選挙の結果は異なっていただろう。 少数の有権者グループがいて、適切にアピールした場合、陣営を切り替えます。 これらのグループは巨大ではないかもしれませんが、そのような緊密な競争で、彼らは選挙の結果を変えるのに十分なほど大きいかもしれません。 これらの人々のグループをどうやって見つけますか? 限られた予算で彼らにどのようにアピールしますか? 答えはクラスタリングです。

それがどのように行われるかを理解しましょう。

  • まず、同意の有無にかかわらず、人々に関する情報を収集します。彼らにとって重要なことや投票方法に影響を与えるものについての手がかりを与える可能性のあるあらゆる種類の情報です。
  • 次に、この情報を何らかのクラスタリングアルゴリズムに入れます。
  • 次に、各クラスター(最初に最大のクラスターを選択するのが賢明でしょう)に対して、これらの投票者にアピールするメッセージを作成します。
  • 最後に、キャンペーンを配信し、それが機能しているかどうかを測定します。

クラスタリングは、類似したもののクラスターを自動的に形成する教師なし学習の一種です。 自動分類のようなものです。 ほとんど何でもクラスタ化でき、クラスタ内のアイテムが類似しているほど、クラスタはより良くなります。 この章では、k-meansと呼ばれるクラスタリングアルゴリズムの1つのタイプを学習します。 「k」個の一意のクラスターを検出し、各クラスターの中心がそのクラスターの値の平均であるため、k-meansと呼ばれます。

クラスター識別

クラスター識別は、アルゴリズムに「ここにいくつかのデータがあります。 分類との主な違いは、分類では何を探しているかを知っているということです。 クラスタリングの場合はそうではありませんが。

クラスタリングは、事前定義されたクラスを持たずに分類と同じ結果を生成するため、教師なし分類と呼ばれることもあります。

現在、教師あり学習と教師なし学習の両方に満足しています。 残りの機械学習カテゴリを理解するには、最初に次の章で学習する人工ニューラルネットワーク(ANN)を理解する必要があります。