Logistic-regression-in-python-splitting-data
提供:Dev Guides
Pythonでのロジスティック回帰-データの分割
約4万1千の奇妙なレコードがあります。 モデル構築にデータ全体を使用する場合、テスト用のデータは残されません。 したがって、通常、データセット全体を2つの部分、たとえば70/30パーセントに分割します。 データの70%をモデル作成に使用し、残りを作成したモデルの予測の精度をテストします。 要件に応じて異なる分割比を使用できます。
フィーチャ配列の作成
データを分割する前に、データを2つの配列XとYに分離します。 X配列には、分析するすべての機能(データ列)が含まれ、Y配列は、予測の出力であるブール値の単一次元配列です。 これを理解するために、いくつかのコードを実行してみましょう。
まず、次のPythonステートメントを実行してX配列を作成します-
配列には、複数の行と23の列があります。
次に、「 y 」値を含む出力配列を作成します。
出力配列の作成
予測値列の配列を作成するには、次のPythonステートメントを使用します-
今、次のコマンドを使用してデータを分割します-
これにより、 X_train、Y_train、X_test、およびY_test という4つの配列が作成されます。 前と同様に、headコマンドを使用してこれらの配列の内容を調べることができます。 モデルのトレーニングにはX_trainおよびY_train配列を使用し、テストおよび検証にはX_testおよびY_test配列を使用します。
これで、分類子を作成する準備が整いました。 次の章でこれを検討します。