Machine-learning-with-python-histograms
提供:Dev Guides
Pythonによる機械学習-ヒストグラム
ヒストグラムはビン内のデータをグループ化し、データセット内の各属性の分布について知るための最速の方法です。 以下は、ヒストグラムの特徴の一部です-
- 視覚化のために作成された各ビンの観測数のカウントを提供します。
- ビンの形状から、分布を簡単に観察できます。 天気はガウス、歪んだ、または指数関数的です。
- ヒストグラムは、可能性のある外れ値を確認するのにも役立ちます。
例
以下に示すコードは、Pima Indian Diabetesデータセットの属性のヒストグラムを作成するPythonスクリプトの例です。 ここでは、Pandas DataFrameで_hist()_関数を使用してヒストグラムを生成し、_matplotlib_を使用してそれらをプロットします。
from matplotlib import pyplot
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
data.hist()
pyplot.show()
出力
上記の出力は、データセット内の各属性のヒストグラムを作成したことを示しています。 このことから、おそらく_age、pedi_およびtest属性が指数分布を持ち、質量とplasがガウス分布を持っていることがわかります。