アジャイルデータサイエンス-アジャイルでのデータ処理

この章では、構造化データ、半構造化データ、非構造化データの違いに焦点を当てます。

構造化データ

構造化データは、行と列を含むテーブルにSQL形式で保存されたデータに関係します。事前に設計されたフィールドにマップされるリレーショナルキーが含まれています。構造化データは大規模に使用されます。

構造化データは、すべてのインフォマティクスデータの5〜10パーセントにすぎません。

半構造化データ

Sem構造化データには、リレーショナルデータベースにないデータが含まれます。分析を容易にするいくつかの組織プロパティが含まれます。リレーショナルデータベースに保存する同じプロセスが含まれています。半構造化データベースの例は、CSVファイル、XMLおよびJSONドキュメントです。 NoSQLデータベースは半構造化されていると見なされます。

非構造化データ

非構造化データは、データの80％を表します。多くの場合、テキストおよびマルチメディアコンテンツが含まれます。非構造化データの最良の例には、オーディオファイル、プレゼンテーション、およびWebページが含まれます。機械生成の非構造化データの例は、衛星画像、科学データ、写真とビデオ、レーダーとソナーのデータです。

衛星画像

上記のピラミッド構造は、特にデータの量とデータが散在する比率に焦点を当てています。

準構造化データは、非構造化データと半構造化データの間のタイプとして表示されます。このチュートリアルでは、アジャイル手法とデータサイエンス研究に有益な半構造化データに焦点を当てます。

半構造化データには正式なデータモデルはありませんが、分析によって開発された、明白で自己記述的なパターンと構造があります。

Agile-data-science-data-processing-in-agile

アジャイルデータサイエンス-アジャイルでのデータ処理

構造化データ

半構造化データ

非構造化データ

目次