Machine-learning-with-python-correlation-matrix-plot

提供:Dev Guides
移動先:案内検索

機械学習-相関行列プロット

相関は、2つの変数間の変化に関する指標です。 前の章で、ピアソンの相関係数と相関の重要性についても説明しました。 相関行列をプロットして、どの変数が別の変数に関して高い相関または低い相関を持っているかを示すことができます。

次の例では、PythonスクリプトはPima Indian Diabetesデータセットの相関行列を生成してプロットします。 Pandas DataFrameのcorr()関数を使用して生成し、_pyplot_を使用してプロットできます。

from matplotlib import pyplot
from pandas import read_csv
import numpy
Path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(Path, names = names)
correlations = data.corr()
fig = pyplot.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = numpy.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
pyplot.show()

出力

相関行列プロット

上記の相関行列の出力から、対称であることがわかります。 左下は右上と同じです。 また、各変数は互いに正の相関があることも観察されています。