Weka-はじめに

Machine Learningアプリケーションの基盤はデータです。ほんの少しのデータではなく、現在の用語では「ビッグデータ」と呼ばれる巨大なデータです。

マシンをトレーニングしてビッグデータを分析するには、データに関するいくつかの考慮事項が必要です-

また、データテーブルのすべての列が、達成しようとしている分析の種類に役立つとは限りません。機械学習の用語で呼ばれる無関係なデータ列または「機能」は、データを機械学習アルゴリズムに供給する前に削除する必要があります。

つまり、ビッグデータを機械学習に使用するには、大量の前処理が必要です。データの準備ができたら、分類、回帰、クラスタリングなどのさまざまな機械学習アルゴリズムを適用して、最後に問題を解決します。

適用するアルゴリズムのタイプは、主にドメインの知識に基づいています。分類などの同じタイプ内でも、いくつかのアルゴリズムが利用可能です。同じクラスでさまざまなアルゴリズムをテストして、効率的な機械学習モデルを構築できます。その間、処理されたデータの視覚化を好むため、視覚化ツールも必要になります。

次の章では、上記のすべてを簡単に実現し、ビッグデータを快適に操作できるソフトウェア、Wekaについて学習します。

Weka-introduction