Logistic-regression-in-python-splitting-data

提供:Dev Guides
移動先:案内検索

Pythonでのロジスティック回帰-データの分割

約4万1千の奇妙なレコードがあります。 モデル構築にデータ全体を使用する場合、テスト用のデータは残されません。 したがって、通常、データセット全体を2つの部分、たとえば70/30パーセントに分割します。 データの70%をモデル作成に使用し、残りを作成したモデルの予測の精度をテストします。 要件に応じて異なる分割比を使用できます。

フィーチャ配列の作成

データを分割する前に、データを2つの配列XとYに分離します。 X配列には、分析するすべての機能(データ列)が含まれ、Y配列は、予測の出力であるブール値の単一次元配列です。 これを理解するために、いくつかのコードを実行してみましょう。

まず、次のPythonステートメントを実行してX配列を作成します-

In [17]: X = data.iloc[:,1:]
*X* の内容を調べるには、 *head* を使用していくつかの初期レコードを印刷します。 次の画面は、X配列の内容を示しています。
In [18]: X.head ()

初期レコード

配列には、複数の行と23の列があります。

次に、「 y 」値を含む出力配列を作成します。

出力配列の作成

予測値列の配列を作成するには、次のPythonステートメントを使用します-

In [19]: Y = data.iloc[:,0]
*head* を呼び出して、その内容を調べます。 以下の画面出力は結果を示しています-
In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

今、次のコマンドを使用してデータを分割します-

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

これにより、 X_train、Y_train、X_test、およびY_test という4つの配列が作成されます。 前と同様に、headコマンドを使用してこれらの配列の内容を調べることができます。 モデルのトレーニングにはX_trainおよびY_train配列を使用し、テストおよび検証にはX_testおよびY_test配列を使用します。

これで、分類子を作成する準備が整いました。 次の章でこれを検討します。