Logistic-regression-in-python-getting-data

提供:Dev Guides
移動先:案内検索

Pythonでのロジスティック回帰-データの取得

この章では、Pythonでロジスティック回帰を実行するためのデータを取得するための手順について詳しく説明します。

データセットのダウンロード

前述のUCIデータセットをまだダウンロードしていない場合は、https://archive.ics.uci.edu/ml/datasets/bank+marketing [こちら]からダウンロードしてください。 データフォルダをクリックします。 次の画面が表示されます-

機械学習データベース

所定のリンクをクリックしてbank.zipファイルをダウンロードします。 zipファイルには次のファイルが含まれています-

銀行

モデル開発にはbank.csvファイルを使用します。 bank-names.txtファイルには、後で必要になるデータベースの説明が含まれています。 bank-full.csvには、より高度な開発に使用できるはるかに大きなデータセットが含まれています。

ここでは、ダウンロード可能なソースzipにbank.csvファイルを含めています。 このファイルには、コンマ区切りのフィールドが含まれています。 また、ファイルにいくつかの変更を加えました。 学習には、プロジェクトソースzipに含まれているファイルを使用することをお勧めします。

データのロード

今コピーしたcsvファイルからデータを読み込むには、次のステートメントを入力してコードを実行します。

In [2]: df = pd.read_csv('bank.csv', header=0)

また、次のコードステートメントを実行することにより、ロードされたデータを調べることができます-

IN [3]: df.head()

コマンドが実行されると、次の出力が表示されます-

ロードされたデータ

基本的に、ロードされたデータの最初の5行を印刷しました。 存在する21列を調べます。 モデル開発には、これらの数列のみを使用します。

次に、データを消去する必要があります。 データには NaN の行が含まれる場合があります。 そのような行を排除するには、次のコマンドを使用します-

IN [4]: df = df.dropna()

幸いなことに、bank.csvにはNaNの行が含まれていないため、この場合、この手順は本当に必要ありません。 ただし、一般に、巨大なデータベースでそのような行を発見することは困難です。 そのため、上記のステートメントを実行してデータを消去する方が常に安全です。

-次のステートメントを使用すると、いつでもデータサイズを簡単に調べることができます-

IN [5]: print (df.shape)
(41188, 21)

行と列の数は、上の2行目に示すように出力に出力されます。

次に行うことは、構築しようとしているモデルの各列の適合性を調べることです。