Agile-data-science-data-processing-in-agile
提供:Dev Guides
アジャイルデータサイエンス-アジャイルでのデータ処理
この章では、構造化データ、半構造化データ、非構造化データの違いに焦点を当てます。
構造化データ
構造化データは、行と列を含むテーブルにSQL形式で保存されたデータに関係します。 事前に設計されたフィールドにマップされるリレーショナルキーが含まれています。 構造化データは大規模に使用されます。
構造化データは、すべてのインフォマティクスデータの5〜10パーセントにすぎません。
半構造化データ
Sem構造化データには、リレーショナルデータベースにないデータが含まれます。 分析を容易にするいくつかの組織プロパティが含まれます。 リレーショナルデータベースに保存する同じプロセスが含まれています。 半構造化データベースの例は、CSVファイル、XMLおよびJSONドキュメントです。 NoSQLデータベースは半構造化されていると見なされます。
非構造化データ
非構造化データは、データの80%を表します。 多くの場合、テキストおよびマルチメディアコンテンツが含まれます。 非構造化データの最良の例には、オーディオファイル、プレゼンテーション、およびWebページが含まれます。 機械生成の非構造化データの例は、衛星画像、科学データ、写真とビデオ、レーダーとソナーのデータです。
上記のピラミッド構造は、特にデータの量とデータが散在する比率に焦点を当てています。
準構造化データは、非構造化データと半構造化データの間のタイプとして表示されます。 このチュートリアルでは、アジャイル手法とデータサイエンス研究に有益な半構造化データに焦点を当てます。
半構造化データには正式なデータモデルはありませんが、分析によって開発された、明白で自己記述的なパターンと構造があります。