Python-pandas-introduction-to-data-structures

提供:Dev Guides
移動先:案内検索

データ構造の概要

パンダは、次の3つのデータ構造を扱います-

  • シリーズ
  • DataFrame
  • パネル

これらのデータ構造はNumpy配列の上に構築されているため、高速です。

寸法と説明

これらのデータ構造を考える最良の方法は、高次元のデータ構造が低次元のデータ構造のコンテナーであることです。 たとえば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。

Data Structure Dimensions Description
Series 1 1D labeled homogeneous array, sizeimmutable.
Data Frames 2 General 2D labeled, size-mutable tabular structure with potentially heterogeneously typed columns.
Panel 3 General 3D labeled, size-mutable array.

2次元以上の配列を作成して処理するのは退屈な作業であり、関数を記述するときにデータセットの方向を考慮するのはユーザーの負担となります。 しかし、Pandasデータ構造を使用すると、ユーザーの精神的な労力は軽減されます。

たとえば、表形式のデータ(DataFrame)では、軸0と軸1ではなく、インデックス(行)と*列*を考える方が意味的に役立ちます。

ミュータビリティ

すべてのPandasデータ構造は値可変であり(変更可能)、シリーズを除きすべてサイズ可変です。 シリーズはサイズ不変です。

-DataFrameは広く使用されており、最も重要なデータ構造の1つです。 パネルの使用はずっと少なくなります。

シリーズ

シリーズは、同種のデータを持つ構造のような1次元配列です。 たとえば、次のシリーズは整数10、23、56、…のコレクションです

10 23 56 17 52 61 73 90 26 72

キーポイント

  • 同種データ
  • サイズ不変
  • 可変データの値

DataFrame

DataFrameは、異種データを含む2次元配列です。 例えば、

Name Age Gender Rating
Steve 32 Male 3.45
Lia 28 Female 4.6
Vin 45 Male 3.9
Katie 38 Female 2.78

この表は、組織の営業チームのデータと全体的なパフォーマンス評価を表します。 データは行と列で表されます。 各列は属性を表し、各行は人を表します。

列のデータ型

4列のデータ型は次のとおりです-

Column Type
Name String
Age Integer
Gender String
Rating Float

キーポイント

  • 異種データ
  • サイズ変更可能
  • 可変データ

パネル

パネルは、異種データを含む3次元データ構造です。 パネルをグラフィカルに表現するのは困難です。 ただし、パネルはDataFrameのコンテナーとして示すことができます。

キーポイント

  • 異種データ
  • サイズ変更可能
  • 可変データ