Big-data-analytics-text-analytics
提供:Dev Guides
ビッグデータ分析-テキスト分析
この章では、本のパート1でスクレイピングされたデータを使用します。 データには、フリーランサーのプロファイルと、彼らがUSDで請求している時間料金を説明するテキストが含まれています。 次のセクションのアイデアは、フリーランサーのスキルを考慮して、その時間給を予測できるモデルを適合させることです。
次のコードは、この場合はバッグオブワードマトリックスでユーザーのスキルを持つ生テキストを変換する方法を示しています。 このために、tmと呼ばれるRライブラリを使用します。 これは、コーパス内の各単語に対して、各変数の出現量を使用して変数を作成することを意味します。
テキストがスパース行列として表されたので、スパースソリューションを提供するモデルに適合させることができます。 この場合の適切な代替手段は、LASSO(最小絶対収縮および選択演算子)を使用することです。 これは、最も関連性の高い機能を選択してターゲットを予測できる回帰モデルです。
これで、一連のスキルがフリーランサーの時間給を予測できるモデルができました。 より多くのデータが収集されると、モデルのパフォーマンスは向上しますが、このパイプラインを実装するコードは同じになります。