Pythonでのロジスティック回帰-データの取得

この章では、Pythonでロジスティック回帰を実行するためのデータを取得するための手順について詳しく説明します。

データセットのダウンロード

前述のUCIデータセットをまだダウンロードしていない場合は、https://archive.ics.uci.edu/ml/datasets/bank+marketing [こちら]からダウンロードしてください。データフォルダをクリックします。次の画面が表示されます-

所定のリンクをクリックしてbank.zipファイルをダウンロードします。 zipファイルには次のファイルが含まれています-

モデル開発にはbank.csvファイルを使用します。 bank-names.txtファイルには、後で必要になるデータベースの説明が含まれています。 bank-full.csvには、より高度な開発に使用できるはるかに大きなデータセットが含まれています。

ここでは、ダウンロード可能なソースzipにbank.csvファイルを含めています。このファイルには、コンマ区切りのフィールドが含まれています。また、ファイルにいくつかの変更を加えました。学習には、プロジェクトソースzipに含まれているファイルを使用することをお勧めします。

今コピーしたcsvファイルからデータを読み込むには、次のステートメントを入力してコードを実行します。

In [2]: df = pd.read_csv('bank.csv', header=0)

また、次のコードステートメントを実行することにより、ロードされたデータを調べることができます-

IN [3]: df.head()

コマンドが実行されると、次の出力が表示されます-

基本的に、ロードされたデータの最初の5行を印刷しました。存在する21列を調べます。モデル開発には、これらの数列のみを使用します。

次に、データを消去する必要があります。データには NaN の行が含まれる場合があります。そのような行を排除するには、次のコマンドを使用します-

IN [4]: df = df.dropna()

幸いなことに、bank.csvにはNaNの行が含まれていないため、この場合、この手順は本当に必要ありません。ただし、一般に、巨大なデータベースでそのような行を発見することは困難です。そのため、上記のステートメントを実行してデータを消去する方が常に安全です。

注-次のステートメントを使用すると、いつでもデータサイズを簡単に調べることができます-

IN [5]: print (df.shape)
(41188, 21)

行と列の数は、上の2行目に示すように出力に出力されます。

次に行うことは、構築しようとしているモデルの各列の適合性を調べることです。