Logistic-regression-in-python-getting-data
Pythonでのロジスティック回帰-データの取得
この章では、Pythonでロジスティック回帰を実行するためのデータを取得するための手順について詳しく説明します。
データセットのダウンロード
前述のUCIデータセットをまだダウンロードしていない場合は、https://archive.ics.uci.edu/ml/datasets/bank+marketing [こちら]からダウンロードしてください。 データフォルダをクリックします。 次の画面が表示されます-
所定のリンクをクリックしてbank.zipファイルをダウンロードします。 zipファイルには次のファイルが含まれています-
モデル開発にはbank.csvファイルを使用します。 bank-names.txtファイルには、後で必要になるデータベースの説明が含まれています。 bank-full.csvには、より高度な開発に使用できるはるかに大きなデータセットが含まれています。
ここでは、ダウンロード可能なソースzipにbank.csvファイルを含めています。 このファイルには、コンマ区切りのフィールドが含まれています。 また、ファイルにいくつかの変更を加えました。 学習には、プロジェクトソースzipに含まれているファイルを使用することをお勧めします。
データのロード
今コピーしたcsvファイルからデータを読み込むには、次のステートメントを入力してコードを実行します。
また、次のコードステートメントを実行することにより、ロードされたデータを調べることができます-
コマンドが実行されると、次の出力が表示されます-
基本的に、ロードされたデータの最初の5行を印刷しました。 存在する21列を調べます。 モデル開発には、これらの数列のみを使用します。
次に、データを消去する必要があります。 データには NaN の行が含まれる場合があります。 そのような行を排除するには、次のコマンドを使用します-
幸いなことに、bank.csvにはNaNの行が含まれていないため、この場合、この手順は本当に必要ありません。 ただし、一般に、巨大なデータベースでそのような行を発見することは困難です。 そのため、上記のステートメントを実行してデータを消去する方が常に安全です。
注-次のステートメントを使用すると、いつでもデータサイズを簡単に調べることができます-
行と列の数は、上の2行目に示すように出力に出力されます。
次に行うことは、構築しようとしているモデルの各列の適合性を調べることです。