Python-data-science-python-data-operations

提供:Dev Guides
移動先:案内検索

Python-データ操作

Pythonは、主に2つのライブラリ、PandasとNumpyを介してさまざまな形式のデータを処理します。 前の章で、これら2つのライブラリの重要な機能を既に見てきました。 この章では、データの操作方法に関する各ライブラリの基本的な例をいくつか見ていきます。

Numpyのデータ操作

NumPyで定義されている最も重要なオブジェクトは、ndarrayと呼ばれるN次元の配列型です。 同じタイプのアイテムのコレクションを記述します。 コレクション内のアイテムには、ゼロベースのインデックスを使用してアクセスできます。 ndarrayクラスのインスタンスは、チュートリアルで後述するさまざまな配列作成ルーチンによって構築できます。 基本的なndarrayは、次のようにNumPyの配列関数を使用して作成されます-

numpy.array

以下は、Numpy Dataの処理に関するいくつかの例です。

例1

# more than one dimensions
import numpy as np
a = np.array([[print a

出力は次のとおりです-

[[Example 2

[source,prettyprint,notranslate,tryit]

#最小寸法は、numpyをnp a = np.array([1、2、3,4,5]、ndmin = 2)としてインポートしますprint a

The output is as follows −

[source,result,notranslate]

[[例3

# dtype parameter
import numpy as np
a = np.array([1, 2, 3], dtype = complex)
print a

出力は次のとおりです-

[ 1.+0.j,  2.+0.j,  3.+0.j]

パンダのデータ操作

パンダは、 SeriesData Frame 、および Panel を介してデータを処理します。 これらのそれぞれからいくつかの例を見るでしょう。

パンダシリーズ

Seriesは、任意のタイプ(整数、文字列、浮動小数点、Pythonオブジェクトなど)のデータを保持できる1次元のラベル付き配列です。 軸ラベルはまとめてインデックスと呼ばれます。 パンダシリーズは、次のコンストラクタを使用して作成することができます-

pandas.Series( data, index, dtype, copy)

ここでは、Numpy Arrayからシリーズを作成します。

#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s

その*出力*は次のとおりです-

0   a
1   b
2   c
3   d
dtype: object

Pandas DataFrame

データフレームは2次元のデータ構造です。つまり、データは表形式で行と列に配置されます。 パンダのDataFrameは、次のコンストラクタを使用して作成することができます-

pandas.DataFrame( data, index, columns, dtype, copy)

ここで、配列を使用してインデックス付きDataFrameを作成します。

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df

その*出力*は次のとおりです-

         Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky

パンダパネル

パネル*は、データの3Dコンテナです。 「パネルデータ」という用語は計量経済学から派生したものであり、パンダという名前の一部を担っています- pan(el)-da(ta)*-s。

パネルは、次のコンストラクタを使用して作成できます-

pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

以下の例では、DataFrameオブジェクトのdictからパネルを作成します

#creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p

その*出力*は次のとおりです-

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4