Python-data-science-python-pandas

提供:Dev Guides
移動先:案内検索

Python-パンダ

Pandasは、強力なデータ構造を使用した高性能なデータ操作とデータ分析に使用されるオープンソースのPythonライブラリです。 パンダを使用したPythonは、金融、経済、統計、広告、Web分析などを含むさまざまな学術および商業分野で使用されています。 Pandasを使用すると、データの出所に関係なく、データの処理と分析の5つの一般的なステップ(データのロード、整理、操作、モデリング、分析)を実行できます。

以下は、特にデータ処理およびデータ分析作業に使用されるパンダの重要な機能の一部です。

パンダの主な機能

  • デフォルトおよびカスタマイズされたインデックス付けを備えた高速で効率的なDataFrameオブジェクト。
  • さまざまなファイル形式からインメモリデータオブジェクトにデータをロードするためのツール。
  • データのアライメントと欠落データの統合処理。
  • 日付セットの形状変更とピボット。
  • 大きなデータセットのラベルベースのスライス、インデックス作成、サブセット化。
  • データ構造から列を削除または挿入できます。
  • 集計および変換のためにデータごとにグループ化します。
  • データの高性能なマージと結合。
  • 時系列機能。

パンダは、次の3つのデータ構造を扱います-

  • シリーズ
  • DataFrame

これらのデータ構造はNumpy配列の上に構築されているため、高速で効率的です。

寸法と説明

これらのデータ構造を考える最良の方法は、高次元のデータ構造が低次元のデータ構造のコンテナーであることです。 たとえば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。

Data Structure Dimensions Description
Series 1 1D labeled homogeneous array, size-immutable.
Data Frames 2 General 2D labeled, size-mutable tabular structure with potentially heterogeneously typed columns.

DataFrameは広く使用されており、最も重要なデータ構造です。

シリーズ

シリーズは、同種のデータを持つ構造のような1次元配列です。 たとえば、次のシリーズは整数10、23、56、…のコレクションです

10 23 56 17 52 61 73 90 26 72

シリーズのキーポイント

  • 同種データ
  • サイズ不変
  • 可変データの値

DataFrame

DataFrameは、異種データを含む2次元配列です。 例えば、

Name Age Gender Rating
Steve 32 Male 3.45
Lia 28 Female 4.6
Vin 45 Male 3.9
Katie 38 Female 2.78

この表は、組織の営業チームのデータと全体的なパフォーマンス評価を表します。 データは行と列で表されます。 各列は属性を表し、各行は人を表します。

列のデータ型

4列のデータ型は次のとおりです-

Column Type
Name String
Age Integer
Gender String
Rating Float

データフレームのキーポイント

  • 異種データ
  • サイズ変更可能
  • 可変データ

次の章では、データサイエンスの作業でpythonのpandasライブラリを使用する多くの例を参照します。