Python-data-science-python-data-operations
Python-データ操作
Pythonは、主に2つのライブラリ、PandasとNumpyを介してさまざまな形式のデータを処理します。 前の章で、これら2つのライブラリの重要な機能を既に見てきました。 この章では、データの操作方法に関する各ライブラリの基本的な例をいくつか見ていきます。
Numpyのデータ操作
NumPyで定義されている最も重要なオブジェクトは、ndarrayと呼ばれるN次元の配列型です。 同じタイプのアイテムのコレクションを記述します。 コレクション内のアイテムには、ゼロベースのインデックスを使用してアクセスできます。 ndarrayクラスのインスタンスは、チュートリアルで後述するさまざまな配列作成ルーチンによって構築できます。 基本的なndarrayは、次のようにNumPyの配列関数を使用して作成されます-
numpy.array
以下は、Numpy Dataの処理に関するいくつかの例です。
例1
# more than one dimensions
import numpy as np
a = np.array([[print a
出力は次のとおりです-
[[Example 2
[source,prettyprint,notranslate,tryit]
#最小寸法は、numpyをnp a = np.array([1、2、3,4,5]、ndmin = 2)としてインポートしますprint a
The output is as follows −
[source,result,notranslate]
[[例3
# dtype parameter
import numpy as np
a = np.array([1, 2, 3], dtype = complex)
print a
出力は次のとおりです-
[ 1.+0.j, 2.+0.j, 3.+0.j]
パンダのデータ操作
パンダは、 Series 、 Data Frame 、および Panel を介してデータを処理します。 これらのそれぞれからいくつかの例を見るでしょう。
パンダシリーズ
Seriesは、任意のタイプ(整数、文字列、浮動小数点、Pythonオブジェクトなど)のデータを保持できる1次元のラベル付き配列です。 軸ラベルはまとめてインデックスと呼ばれます。 パンダシリーズは、次のコンストラクタを使用して作成することができます-
pandas.Series( data, index, dtype, copy)
例
ここでは、Numpy Arrayからシリーズを作成します。
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
その*出力*は次のとおりです-
0 a
1 b
2 c
3 d
dtype: object
Pandas DataFrame
データフレームは2次元のデータ構造です。つまり、データは表形式で行と列に配置されます。 パンダのDataFrameは、次のコンストラクタを使用して作成することができます-
pandas.DataFrame( data, index, columns, dtype, copy)
ここで、配列を使用してインデックス付きDataFrameを作成します。
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df
その*出力*は次のとおりです-
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
パンダパネル
パネル*は、データの3Dコンテナです。 「パネルデータ」という用語は計量経済学から派生したものであり、パンダという名前の一部を担っています- pan(el)-da(ta)*-s。
パネルは、次のコンストラクタを使用して作成できます-
pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
以下の例では、DataFrameオブジェクトのdictからパネルを作成します
#creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p
その*出力*は次のとおりです-
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4