Excel-data-analysis-data-analysis-process
データ分析-プロセス
データ分析は、必要な情報を発見することを目的として、データを収集、変換、クリーニング、およびモデリングするプロセスです。 そのようにして得られた結果は伝達され、結論を示唆し、意思決定を支援します。 データの有用なパターンを見つけやすくするために、データの視覚化を使用してデータを描写することがあります。 データモデリングとデータ分析という用語は同じ意味です。
データ分析プロセスは、本質的に反復的な次のフェーズで構成されます-
- データ要件仕様
- データ収集
- 情報処理
- データクリーニング
- データ分析
- コミュニケーション
データ要件仕様
分析に必要なデータは、質問または実験に基づいています。 分析を指示する人々の要件に基づいて、分析への入力として必要なデータが特定されます(たとえば、人口)。 母集団に関する特定の変数(年齢や収入など)を指定して取得できます。 データは、数値またはカテゴリーの場合があります。
データ収集
データ収集は、データ要件として識別されたターゲット変数に関する情報を収集するプロセスです。 重点は、正確で正直なデータ収集を確実にすることにあります。 データ収集は、関連する決定が有効になるように、収集されたデータが正確であることを保証します。 データ収集は、測定するベースラインと改善するターゲットの両方を提供します。
データは、組織のデータベースからWebページの情報まで、さまざまなソースから収集されます。 このようにして得られたデータは、構造化されていない場合があり、無関係な情報が含まれている場合があります。 したがって、収集されたデータは、データ処理とデータクリーニングの対象となる必要があります。
情報処理
収集されたデータは、分析のために処理または編成する必要があります。 これには、関連する分析ツールに必要なデータの構造化が含まれます。 たとえば、スプレッドシートまたは統計アプリケーション内のテーブルの行と列にデータを配置する必要がある場合があります。 データモデルを作成する必要がある場合があります。
データクリーニング
処理および編成されたデータは、不完全であるか、重複が含まれているか、エラーが含まれている可能性があります。 データクリーニングは、これらのエラーを防止および修正するプロセスです。 データのタイプに依存するデータクリーニングにはいくつかのタイプがあります。 たとえば、財務データのクリーニング中に、特定の合計が信頼できる公開数値または定義済みのしきい値と比較される場合があります。 同様に、定量データ法は、その後分析で除外される外れ値の検出に使用できます。
データ分析
処理、整理、およびクリーンアップされたデータは、分析の準備が整います。 要件に基づいて結論を理解し、解釈し、導き出すために、さまざまなデータ分析手法を利用できます。 データの視覚化を使用して、データをグラフィカル形式で調べ、データ内のメッセージに関する追加の洞察を得ることができます。
相関、回帰分析などの統計データモデルを使用して、データ変数間の関係を特定できます。 データを説明するこれらのモデルは、分析を簡素化し、結果を伝えるのに役立ちます。
このプロセスでは、追加のデータクリーニングまたは追加のデータ収集が必要になる場合があるため、これらのアクティビティは本質的に反復的です。
コミュニケーション
データ分析の結果は、ユーザーの決定とさらなるアクションをサポートするためにユーザーが必要とする形式で報告されます。 ユーザーからのフィードバックにより、追加の分析が行われる場合があります。
データアナリストは、メッセージを明確かつ効率的にユーザーに伝えるのに役立つ、テーブルやグラフなどのデータ視覚化手法を選択できます。 分析ツールは、必要な情報を色分けし、表とグラフのフォーマットで強調表示する機能を提供します。