Python-data-science-python-processing-unstructured-data
提供:Dev Guides
Python-非構造化データの処理
行と列の形式で既に存在するデータ、または後でデータベースにうまく収まるように行と列に簡単に変換できるデータは、構造化データと呼ばれます。 例は、CSV、TXT、XLSファイルなどです。 これらのファイルには、区切り文字と固定幅または可変幅のいずれかがあり、欠損値は区切り文字の間の空白として表されます。 ただし、行の幅が固定されていないデータや、単にHTML、画像、またはpdfファイルのデータを取得する場合があります。 このようなデータは、非構造化データと呼ばれます。 HTMLファイルはHTMLタグを処理することで処理できますが、ツイッターからのフィードまたはニュースフィードからのプレーンテキストドキュメントには、区切り文字がなくても処理するタグがありません。 このようなシナリオでは、さまざまなPythonライブラリのさまざまな組み込み関数を使用してファイルを処理します。
データを読む
以下の例では、テキストファイルを取得し、その中の各行を分離するファイルを読み取ります。 次に、出力をさらに行と単語に分割できます。 元のファイルは、Python言語を説明するいくつかの段落を含むテキストファイルです。
上記のコードを実行すると、次の結果が生成されます。
単語の頻度を数える
次のようにカウンタ関数を使用して、ファイル内の単語の頻度をカウントできます。
上記のコードを実行すると、次の結果が生成されます。