More than 5 years have passed since last update.

機械学習　トレーニングデータの分割と学習・予測・検証

Last updated at 2017-06-26Posted at 2017-02-22

機械学習を、 PyData.Tokyoのチュートリアル#1 を元に勉強したり、教えていると、トレーニングデータの分割から、学習・予測・検証の部分がわかりにくいと感じています。
この部分の解説をします。

前提条件

特徴行列を X
クラスラベルデータを y
としたときに、以下のように行うと、データ分割が可能

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, train_size=0.8, random_state=1)

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

clf を初期化して、以下の学習・予測・検証に使っていきます。

clf.fit(X_train, y_train)

初期化されたclfのfitメソッドを使って、学習させる
データは80%の学習用データに特徴行列とクラスラベルを与える

y_train_pred = clf.predict(X_train)
y_val_pred = clf.predict(X_val)

clfのpredictメソッドで予測をします。

ここまで、 y_val を使っていない。つまり、 y_train が未知データとして扱われている

from sklearn.metrics import accuracy_score
train_score = accuracy_score(y_train, y_train_pred)
val_score = accuracy_score(y_val, y_val_pred)

accuracy_score には、 クラスラベルデータ と 上記の予測結果 を与え、正答率を出力