Time-series-data-processing-and-visualization
時系列-データ処理と視覚化
時系列は、等間隔の時間間隔でインデックス付けされた一連の観測です。 したがって、順序と連続性はどの時系列でも維持される必要があります。
使用するデータセットは、イタリアの都市が著しく汚染されている大気の質について、約1年間の1時間ごとのデータを持つ多変量時系列です。 データセットは、以下のリンクからダウンロードできます-https://archive.ics.uci.edu/ml/datasets/air+quality。
それを確認する必要があります-
- 時系列は等間隔であり、
- 冗長な値やギャップはありません。
時系列が連続していない場合、アップサンプリングまたはダウンサンプリングできます。
df.head()を表示
[122]で:
[123]で:
[124]で:
アウト[124]:
[125]で:
アウト[125]:
時系列の前処理では、データセットにNaN(NULL)値がないことを確認します。ある場合は、0またはaverageまたは前後の値に置き換えることができます。 時系列の連続性が維持されるように、ドロップよりも置換をお勧めします。 ただし、このデータセットでは、最後のいくつかの値はNULLのように見えるため、ドロップしても連続性に影響しません。
NaN(Not-a-Number)のドロップ
[126]で:
[127]で:
[128]で:
アウト[128]:
時系列は通常、時間に対する折れ線グラフとしてプロットされます。 そのために、日付と時刻の列を組み合わせて、文字列から日時オブジェクトに変換します。 これは、日時ライブラリを使用して実現できます。
日時オブジェクトへの変換
[129]で:
[130]で:
<クラス 'pandas._libs.tslibs.timestamps.Timestamp'>
温度などの変数が時間の変化とともにどのように変化するかを見てみましょう。
プロットを表示する
[131]で:
[132]で:
アウト[132]:
[208]で:
アウト[208]:
ボックスプロットは、データセットに関する多くの情報を1つのグラフにまとめることができる、もう1つの便利なグラフです。 1つまたは複数の変数の平均、25%および75%の四分位数および外れ値を示します。 外れ値の数が少なく、平均から非常に離れている場合、それらを平均値または75%四分位値に設定することにより、外れ値を排除できます。
ボックスプロットの表示
[134]で:
アウト[134]: