Python-pandas-introduction-to-data-structures
提供:Dev Guides
データ構造の概要
パンダは、次の3つのデータ構造を扱います-
- シリーズ
- DataFrame
- パネル
これらのデータ構造はNumpy配列の上に構築されているため、高速です。
寸法と説明
これらのデータ構造を考える最良の方法は、高次元のデータ構造が低次元のデータ構造のコンテナーであることです。 たとえば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。
Data Structure | Dimensions | Description |
---|---|---|
Series | 1 | 1D labeled homogeneous array, sizeimmutable. |
Data Frames | 2 | General 2D labeled, size-mutable tabular structure with potentially heterogeneously typed columns. |
Panel | 3 | General 3D labeled, size-mutable array. |
2次元以上の配列を作成して処理するのは退屈な作業であり、関数を記述するときにデータセットの方向を考慮するのはユーザーの負担となります。 しかし、Pandasデータ構造を使用すると、ユーザーの精神的な労力は軽減されます。
たとえば、表形式のデータ(DataFrame)では、軸0と軸1ではなく、インデックス(行)と*列*を考える方が意味的に役立ちます。
ミュータビリティ
すべてのPandasデータ構造は値可変であり(変更可能)、シリーズを除きすべてサイズ可変です。 シリーズはサイズ不変です。
注-DataFrameは広く使用されており、最も重要なデータ構造の1つです。 パネルの使用はずっと少なくなります。
シリーズ
シリーズは、同種のデータを持つ構造のような1次元配列です。 たとえば、次のシリーズは整数10、23、56、…のコレクションです
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
キーポイント
- 同種データ
- サイズ不変
- 可変データの値
DataFrame
DataFrameは、異種データを含む2次元配列です。 例えば、
Name | Age | Gender | Rating |
---|---|---|---|
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
この表は、組織の営業チームのデータと全体的なパフォーマンス評価を表します。 データは行と列で表されます。 各列は属性を表し、各行は人を表します。
列のデータ型
4列のデータ型は次のとおりです-
Column | Type |
---|---|
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
キーポイント
- 異種データ
- サイズ変更可能
- 可変データ
パネル
パネルは、異種データを含む3次元データ構造です。 パネルをグラフィカルに表現するのは困難です。 ただし、パネルはDataFrameのコンテナーとして示すことができます。
キーポイント
- 異種データ
- サイズ変更可能
- 可変データ