ビッグデータ分析-データライフサイクル

従来のデータマイニングライフサイクル

組織が必要とする作業を整理し、ビッグデータから明確な洞察を提供するためのフレームワークを提供するには、さまざまな段階のサイクルと考えると便利です。それは決して線形ではありません。つまり、すべてのステージが相互に関連しています。このサイクルは、* CRISP方法論*で説明されている従来のデータマイニングサイクルと表面的に類似しています。

CRISP-DM方法論

データマイニングの業界共通プロセスの略である* CRISP-DM方法論は、データマイニングの専門家が従来のBIデータマイニングの問題に取り組むために使用する一般的に使用されるアプローチを説明するサイクルです。従来のBIデータマイニングチームでまだ使用されています。

次の図をご覧ください。 CRISP-DM方法論で説明されているサイクルの主要な段階と、それらの相互関係を示しています。

ライフサイクル

CRISP-DMは1996年と翌年に考案され、ESPRITの資金調達イニシアチブの下で欧州連合プロジェクトとして進行しました。このプロジェクトは、SPSS、Teradata、Daimler AG、NCR Corporation、OHRA（保険会社）の5社が主導しました。プロジェクトは最終的にSPSSに組み込まれました。この方法論は、データマイニングプロジェクトをどのように指定すべきかという点で非常に詳細に指向されています。

ここで、CRISP-DMのライフサイクルに関与する各段階についてもう少し学びましょう。

ビジネスの理解-この初期段階では、ビジネスの観点からプロジェクトの目的と要件を理解し、この知識をデータマイニングの問題定義に変換することに焦点を当てています。目標を達成するための予備計画が設計されています。意思決定モデル、特に意思決定モデルと表記標準を使用して構築されたものを使用できます。
データ理解-データ理解フェーズは、最初のデータ収集から始まり、データに精通し、データ品質の問題を特定し、データに対する最初の洞察を発見し、仮説を形成するために興味深いサブセットを検出するための活動に進みます隠された情報。
データの準備-データの準備段階では、最初の生データから最終的なデータセット（モデリングツールに入力されるデータ）を構築するためのすべてのアクティビティをカバーします。データ準備タスクは、規定の順序ではなく、複数回実行される可能性があります。タスクには、テーブル、レコード、および属性の選択のほか、モデリングツールのデータの変換とクリーニングが含まれます。
モデリング-このフェーズでは、さまざまなモデリング手法が選択および適用され、それらのパラメーターが最適な値に調整されます。通常、同じデータマイニング問題タイプにはいくつかの手法があります。一部の手法には、データの形式に関する特定の要件があります。そのため、多くの場合、データ準備フェーズに戻る必要があります。
評価-プロジェクトのこの段階では、データ分析の観点から、高品質であると思われるモデルを作成しました。モデルの最終的な展開に進む前に、モデルを徹底的に評価し、モデルを構築するために実行した手順を確認して、ビジネス目標が適切に達成されていることを確認することが重要です。 +重要な目的は、十分に検討されていない重要なビジネス上の問題があるかどうかを判断することです。このフェーズの終わりに、データマイニング結果の使用に関する決定に到達する必要があります。
展開-モデルの作成は一般的にプロジェクトの終わりではありません。モデルの目的がデータの知識を増やすことであったとしても、得られた知識は顧客にとって有益な方法で整理され提示される必要があります。 +要件に応じて、展開フェーズは、レポートを生成するのと同じくらい簡単な場合も、繰り返し可能なデータスコアリングを実装するのと同じくらい複雑な場合もありますセグメント割り当て）またはデータマイニングプロセス。

多くの場合、展開手順を実行するのはデータアナリストではなく顧客です。アナリストがモデルを展開した場合でも、作成されたモデルを実際に使用するために実行する必要があるアクションを事前に理解しておくことが重要です。

SEMMA方法論

SEMMAは、データマイニングモデリングのためにSASが開発した別の方法論です。 * S * ample、* E * xplore、* M * odify、* M * odel、* A * ssesを表します。ここにその段階の簡単な説明があります-

サンプル-プロセスはデータサンプリングから始まります。たとえば、モデリング用のデータセットを選択します。データセットは、取得するのに十分な情報を格納するのに十分な大きさである必要がありますが、効率的に使用するのに十分小さい必要があります。このフェーズでは、データのパーティション化も扱います。
探索-このフェーズでは、データの視覚化を活用して、変数間の異常な関係や異常を発見し、データの理解をカバーします。
変更-変更フェーズには、データモデリングの準備として変数を選択、作成、変換するメソッドが含まれます。
モデル-モデルフェーズでは、必要な結果を提供する可能性のあるモデルを作成するために、準備された変数にさまざまなモデリング（データマイニング）技術を適用することに焦点を当てています。
評価-モデリング結果の評価は、作成されたモデルの信頼性と有用性を示しています。

CRISM-DMとSEMMAの主な違いは、SEMMAがモデリングの側面に焦点を当てているのに対し、CRISP-DMは、解決するビジネス問題の理解、データの理解、前処理など、モデリングの前のサイクルの段階をより重視することです機械学習アルゴリズムなどの入力として使用されます。

ビッグデータのライフサイクル

今日のビッグデータのコンテキストでは、以前のアプローチは不完全または最適ではありません。たとえば、SEMMA方法論では、さまざまなデータソースのデータ収集と前処理を完全に無視します。通常、これらの段階は、成功するビッグデータプロジェクトのほとんどの作業を構成します。

ビッグデータ分析サイクルは、次の段階で説明することができます-

ビジネス問題の定義
研究
人事評価
データ収集
データ変更
データストレージ
探索的データ分析
モデリングと評価のためのデータ準備
モデリング
実装

このセクションでは、ビッグデータのライフサイクルのこれらの各段階に光を当てます。

ビジネス問題の定義

これは、従来のBIおよびビッグデータ分析のライフサイクルに共通するポイントです。通常、ビッグデータプロジェクトの問題を定義し、組織にとってどれだけの潜在的利益を得ることができるかを正しく評価することは、重要なプロジェクトの重要な段階です。これに言及するのは明らかなようですが、プロジェクトの期待される利益とコストを評価する必要があります。

研究

同じ状況で他の企業が行ったことを分析します。これには、会社が持っているリソースや要件に他のソリューションを適応させることを含め、会社にとって合理的なソリューションを探すことが含まれます。この段階では、将来の段階の方法論を定義する必要があります。

人事評価

問題が定義されたら、現在のスタッフがプロジェクトを正常に完了できるかどうかを分析し続けるのが妥当です。従来のBIチームは、すべての段階に最適なソリューションを提供できない可能性があるため、プロジェクトの一部を外部委託したり、より多くの人を雇用する必要がある場合は、プロジェクトを開始する前に検討する必要があります。

データ収集

このセクションは、ビッグデータのライフサイクルの鍵です。結果のデータ製品を配信するために必要なプロファイルのタイプを定義します。データ収集はプロセスの重要なステップです。通常、さまざまなソースから非構造化データを収集します。例として、クローラーを作成してWebサイトからレビューを取得することが含まれます。これには、通常、完了までにかなりの時間を要するさまざまな言語でのテキストの処理が含まれます。

データ変更

たとえば、Webからデータを取得したら、使いやすい形式で保存する必要があります。レビューの例を続けるために、データの表示が異なるサイトからデータが取得されると仮定します。

1つのデータソースが星の評価の観点からレビューを提供するとします。したがって、これを応答変数 y∈\ {1、2、3、4、5} のマッピングとして読み取ることができます。別のデータソースは、2つの矢印システムを使用してレビューを提供します。1つは上投票用、もう1つは下投票用です。これは、 y∈\ {positive、negative} という形式の応答変数を意味します。

両方のデータソースを結合するには、これら2つの応答表現を同等にするための決定を行う必要があります。これには、最初のデータソース応答表現を2番目の形式に変換することが含まれ、1つの星を負、5つの星を正と見なします。このプロセスでは、多くの場合、高品質で大きな時間の割り当てが必要になります。

データストレージ

データが処理されると、データベースに保存する必要がある場合があります。ビッグデータテクノロジーは、この点に関して多くの選択肢を提供します。最も一般的な代替方法は、HIVE Query Languageと呼ばれる限定バージョンのSQLをユーザーに提供するストレージにHadoopファイルシステムを使用することです。これにより、ユーザーの観点から、ほとんどの分析タスクを従来のBIデータウェアハウスで実行されるのと同様の方法で実行できます。考慮すべきその他のストレージオプションは、MongoDB、Redis、およびSPARKです。

サイクルのこの段階は、さまざまなアーキテクチャを実装する能力の観点から、人的資源の知識に関連しています。従来のデータウェアハウスの修正版は、大規模なアプリケーションでまだ使用されています。たとえば、テラデータとIBMは、テラバイトのデータを処理できるSQLデータベースを提供しています。 postgreSQLやMySQLなどのオープンソースソリューションは、大規模なアプリケーションで引き続き使用されています。

さまざまなストレージがバックグラウンドでどのように機能するかはクライアント側からは異なりますが、ほとんどのソリューションではSQL APIが提供されます。したがって、SQLを十分に理解することは、ビッグデータ分析に必要なスキルです。

この段階である_priori_は最も重要なトピックのようですが、実際にはこれは真実ではありません。必須の段階でもありません。リアルタイムデータを処理するビッグデータソリューションを実装することができます。そのため、この場合、データを収集してモデルを開発し、リアルタイムで実装するだけです。したがって、データを正式に保存する必要はまったくありません。

探索的データ分析

データをクリーンアップして、そこから洞察を取得できる方法で保存したら、データ探索フェーズは必須です。この段階の目的は、データを理解することです。これは通常、統計的手法とデータのプロットを使用して行われます。これは、問題の定義が意味を成すか実行可能かを評価するのに適した段階です。

モデリングと評価のためのデータ準備

この段階では、以前に取得したクリーンなデータを再形成し、欠損値の代入、外れ値の検出、正規化、特徴抽出、特徴選択に統計的な前処理を使用します。

モデリング

前の段階では、トレーニングやテスト用の複数のデータセット、たとえば予測モデルを作成しておく必要がありました。この段階では、さまざまなモデルを試して、目前のビジネス上の問題を解決することを楽しみにしています。実際には、モデルがビジネスに対する何らかの洞察を与えることが通常望まれます。最後に、最適なモデルまたはモデルの組み合わせを選択して、除外されたデータセットでのパフォーマンスを評価します。

実装

この段階では、開発されたデータ製品が会社のデータパイプラインに実装されます。これには、パフォーマンスを追跡するために、データ製品の動作中に検証スキームを設定することが含まれます。たとえば、予測モデルを実装する場合、この段階ではモデルを新しいデータに適用し、応答が利用可能になったらモデルを評価します。

Big-data-analytics-lifecycle