Big-data-analytics-problem-definition
ビッグデータ分析-問題定義
このチュートリアルを通じて、プロジェクトを開発します。 このチュートリアルの後続の各章では、ミニプロジェクトセクションの大きなプロジェクトの一部を扱います。 これは、実世界の問題への露出を提供する応用チュートリアルセクションであると考えられます。 この場合、プロジェクトの問題定義から始めます。
プロジェクトの説明
このプロジェクトの目的は、履歴書(CV)テキストを入力として使用して、人の時間給を予測する機械学習モデルを開発することです。
上記で定義したフレームワークを使用すると、問題を簡単に定義できます。 _X = \ {x〜1〜、x〜2〜、…、x〜n〜} _をユーザーの履歴書として定義できます。各機能は、可能な限り簡単な方法で、この単語が表示される回数です。 。 その後、応答は真に価値があり、個人の時間給をドルで予測しようとしています。
これらの2つの考慮事項は、提示された問題を教師付き回帰アルゴリズムで解決できると結論付けるのに十分です。
問題定義
- 問題の定義*は、おそらくビッグデータ分析パイプラインの中で最も複雑で無視されている段階の1つです。 データ製品が解決する問題を定義するには、経験が必須です。 ほとんどのデータサイエンティスト志望者は、この段階でほとんどまたはまったく経験がありません。
ほとんどのビッグデータの問題は、次の方法で分類することができます-
- 教師付き分類
- 教師付き回帰
- 教師なし学習
- ランク付けを学ぶ
これらの4つの概念について詳しく説明しましょう。
教師付き分類
特徴マトリックス_X = \ {x〜1〜、x〜2〜、…、x〜n〜} _が与えられた場合、モデルMを開発して、_y = \ {c〜1〜、cとして定義されるさまざまなクラスを予測します。 〜2〜、…、c〜n〜} _。 例:保険会社の顧客のトランザクションデータを指定すると、クライアントが解約するかどうかを予測するモデルを開発できます。 後者はバイナリ分類の問題で、2つのクラスまたはターゲット変数があります:チャーンとチャーンではありません。
他の問題には複数のクラスの予測が関係するため、数字認識を行うことに興味があるため、応答ベクトルは次のように定義されます。_y = \ {0、1、2、3、4、5、6、7、8、9 } _、最先端のモデルは畳み込みニューラルネットワークであり、特徴のマトリックスは画像のピクセルとして定義されます。
教師あり回帰
この場合、問題の定義は前の例とかなり似ています。違いは応答に依存します。 回帰問題、応答y∈ℜでは、これは応答が実数値であることを意味します。 たとえば、CVのコーパスを与えられた個人の時間給を予測するモデルを開発できます。
教師なし学習
多くの場合、経営陣は新しい洞察を渇望しています。 セグメンテーションモデルは、マーケティング部門がさまざまなセグメントの製品を開発するために、この洞察を提供できます。 アルゴリズムを考えるのではなく、セグメンテーションモデルを開発するための適切なアプローチは、必要なセグメンテーションに関連する機能を選択することです。
たとえば、電気通信会社では、クライアントを携帯電話の使用量でセグメント化することは興味深いです。 これには、セグメンテーションの目的とは関係のない機能を無視し、関係する機能のみを含めることが含まれます。 この場合、これは1か月に使用されるSMSの数、インバウンドおよびアウトバウンドの分数などの機能を選択することになります。
ランク付けを学ぶ
この問題は回帰問題と見なすことができますが、特定の特性があり、別の扱いが必要です。 この問題には、クエリが与えられたときに最も関連性の高い順序を見つけようとするドキュメントのコレクションが含まれます。 教師あり学習アルゴリズムを開発するには、クエリが与えられた場合に、順序がどの程度関連しているかをラベル付けする必要があります。
教師あり学習アルゴリズムを開発するには、トレーニングデータにラベルを付ける必要があることに注意してください。 これは、たとえば、画像からの数字を認識するモデルをトレーニングするために、かなりの量の例に手でラベルを付ける必要があることを意味します。 このプロセスを高速化することができ、amazon Mechanical Turkなどのこのタスクに一般的に使用されるWebサービスがあります。 より多くのデータが提供されると、学習アルゴリズムのパフォーマンスが向上することが証明されているため、適切な量の例にラベルを付けることは、教師あり学習では実際に必須です。