Python-pandas-sparse-data
提供:Dev Guides
Pythonパンダ-スパースデータ
スパースオブジェクトは、特定の値(NaN/欠損値、任意の値を選択できます)に一致するデータが省略されると「圧縮」されます。 特別なSparseIndexオブジェクトは、データが「スパース化」された場所を追跡します。 これは、例でより意味があります。 標準のパンダのデータ構造はすべて、 to_sparse メソッドを適用します-
その*出力*は次のとおりです-
スパースオブジェクトは、メモリ効率の理由で存在します。
あなたが大きなNA DataFrameを持っていると仮定して、次のコードを実行してみましょう-
その*出力*は次のとおりです-
任意のスパースオブジェクトは、 to_dense を呼び出すことにより、標準の高密度形式に戻すことができます-
その*出力*は次のとおりです-
スパースDtype
疎データは、その密表現と同じdtypeを持つ必要があります。 現在、 float64、int64 、および booldtypes がサポートされています。 元の dtypeに応じて、fill_value default が変更されます-
- float64 -np.nan
- int64 -0
- bool -False
同じことを理解するために次のコードを実行してみましょう-
その*出力*は次のとおりです-