ビッグデータ分析-方法論

方法論に関しては、ビッグデータ分析は、実験計画の従来の統計的アプローチとは大きく異なります。分析はデータから始まります。通常、応答を説明する方法でデータをモデル化します。このアプローチの目的は、応答の振る舞いを予測するか、入力変数が応答にどのように関係するかを理解することです。通常、統計実験計画では、実験が開発され、結果としてデータが取得されます。これにより、独立性、正規性、ランダム化などの特定の仮定が当てはまる統計モデルで使用できる方法でデータを生成できます。

ビッグデータ分析では、データが提示されます。お気に入りの統計モデルを満たす実験を設計することはできません。分析の大規模なアプリケーションでは、データをクリーンアップするためだけに大量の作業（通常は作業の80％）が必要になるため、機械学習モデルで使用できます。

実際の大規模アプリケーションで従うための独自の方法論はありません。通常、ビジネス上の問題が定義されたら、使用する方法論を設計するための調査段階が必要です。ただし、一般的なガイドラインは言及するのに適切であり、ほぼすべての問題に適用されます。

ビッグデータ分析で最も重要なタスクの1つは、統計モデリング*です。これは、教師付きおよび教師なしの分類または回帰の問題を意味します。データをクリーンアップして前処理し、モデリングに使用できるようになったら、適切な損失メトリックを使用してさまざまなモデルを評価し、モデルを実装したら、さらに評価と結果を報告する必要があります。予測モデリングの一般的な落とし穴は、モデルを実装するだけで、そのパフォーマンスを測定しないことです。

Big-data-analytics-methodology

ビッグデータ分析-方法論