Logistic-regression-in-python-splitting-data
提供:Dev Guides
Pythonでのロジスティック回帰-データの分割
約4万1千の奇妙なレコードがあります。 モデル構築にデータ全体を使用する場合、テスト用のデータは残されません。 したがって、通常、データセット全体を2つの部分、たとえば70/30パーセントに分割します。 データの70%をモデル作成に使用し、残りを作成したモデルの予測の精度をテストします。 要件に応じて異なる分割比を使用できます。
フィーチャ配列の作成
データを分割する前に、データを2つの配列XとYに分離します。 X配列には、分析するすべての機能(データ列)が含まれ、Y配列は、予測の出力であるブール値の単一次元配列です。 これを理解するために、いくつかのコードを実行してみましょう。
まず、次のPythonステートメントを実行してX配列を作成します-
In [17]: X = data.iloc[:,1:]
*X* の内容を調べるには、 *head* を使用していくつかの初期レコードを印刷します。 次の画面は、X配列の内容を示しています。
In [18]: X.head ()
配列には、複数の行と23の列があります。
次に、「 y 」値を含む出力配列を作成します。
出力配列の作成
予測値列の配列を作成するには、次のPythonステートメントを使用します-
In [19]: Y = data.iloc[:,0]
*head* を呼び出して、その内容を調べます。 以下の画面出力は結果を示しています-
In [20]: Y.head()
Out[20]: 0 0
1 0
2 1
3 0
4 1
Name: y, dtype: int64
今、次のコマンドを使用してデータを分割します-
In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)
これにより、 X_train、Y_train、X_test、およびY_test という4つの配列が作成されます。 前と同様に、headコマンドを使用してこれらの配列の内容を調べることができます。 モデルのトレーニングにはX_trainおよびY_train配列を使用し、テストおよび検証にはX_testおよびY_test配列を使用します。
これで、分類子を作成する準備が整いました。 次の章でこれを検討します。