# ライブラリの読み込み
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

ここからデータマートを作成しました。

昨日の講義はこちら

ここからはデータマートを用いてモデル作成に入ります。

モデル作成について

ここからは作成したデータを用いて機械学習を行います。

まず最初に機械学習用のライブラリを読み込みします。

機械学習ライブラリの読み込み

scikit-learn : 機械学習用のライブラリ

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

from sklearn.metrics import recall_score,precision_score,f1_score,accuracy_score
from sklearn.metrics import confusion_matrix

ざっくりとライブラリの説明をするとscikit-learn自体はものすごく巨大なライブラリなので
必要なものだけを読み込みしていきます。1つ1つの項目については後ほど。

モデル作りの流れ

モデル作りにはいくつかの工程があります。

まずは学習データとテストデータに分ける作業です。
入試のテストを受ける事を思い浮かべてみてください。

何のテストか、事前に答えをしっていたら、満点に近い点数取れると思います。
なので、機械学習でもあらかじめ学習しているデータで検証をするのはあまり意味がありません。

事前に学習させるデータには検証用のデータが含まれないようにして学習させ、学習モデルが出来上がった後、改めて残ったテストデータで検証を行います。

検証した上で、満足のいくものができなかった場合は、手法を変えてみたり、パラメーターの調整をしたり、データの取捨選択から前処理をし直したりしてモデルを作っていきます。

データの分割

ここではホールド・アウト法で単純分割を行います。
テストデータへの分割はtrain_test_splitを用いて行います。

X = 正解ラベル以外のデータ(複数列)
Y = 正解ラベルのデータ(1列)

x_train, x_test, y_train, y_test = train_test_split(X,Y, test_size=テストサイズ)
※テストサイズは小数点で記入し、テストデータのサイズを入れます。例:0.2

ここで言うXとYは昨日作成したデータフレームの列を指定します。

X = data_df.drop(['Survived'],axis=1)
Y = data_df['Survived']
x_train, x_test, y_train, y_test = train_test_split(X,Y, test_size=0.2)
print(len(x_train))
print(len(y_train))
print(len(x_test))
print(len(x_test))

712
712
179
179

これで訓練用の説明変数のデータ、訓練用の目的変数のデータ、テスト用の説明変数のデータ、テスト用の目的変数のデータの4つのデータが出来上がります。

モデルの呼び出し

次にモデルの呼び出しです。どんな手法を用いるのか決めて、ライブラリから呼び出します。

ここでは
ロジスティック回帰モデルを呼び出します。
ロジスティック回帰は2値の判別に良く用いられています。
LogisticRegressionがロジスティック回帰モデルになります。

clf = LogisticRegression()

モデルの学習

モデルを呼び出したら次は学習です。
学習は訓練用の説明変数のデータ、訓練用の目的変数のデータを用いて学習を行います。
基本的に学習は1行で書けてしまいます。

clf.fit(x_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, l1_ratio=None, max_iter=100,
multi_class='warn', n_jobs=None, penalty='l2',
random_state=None, solver='warn', tol=0.0001, verbose=0,
warm_start=False)

これで学習は終わりです。

予測を行う

次にテストデータで検証を行います。
検証では分割したテストデータを用いて、テストのラベルを予測(判別)します。

y_predict = clf.predict(x_test)

これで予測した結果がy_predictに格納されました。
中身は正解を予測した配列が格納されています。

y_predict[0:5]

array([0, 0, 1, 0, 0])

予測は0か1の値を出力しています。
正解ラベルも0か1の値のデータになっているので、これと比較する事で精度検証が行えます。

モデルの精度検証を行う

次はモデルの精度検証です。モデルの精度がどれくらい出ているのかを算出します。
ライブラリから精度検証用のライブラリを読み込みしていますので紹介すると

confusion_matrix : 2x2の正誤表を出力する
accuracy_score : 正答率を算出する
precision_score : 適合率を算出する
recall_score : 再現率を算出する
f1_score : precision x recall の調和平均を算出する

となっています。

早速精度検証をしてみると

print(pd.DataFrame(confusion_matrix(y_predict, y_test), index=['predict 0', 'predict 1'], columns=['real 0', 'real 1']))
print()
print('accuracy  : ',accuracy_score(y_test, y_predict))
print('precision : ',precision_score(y_test, y_predict))
print('recall    : ',recall_score(y_test, y_predict))
print('f1_score  : ',f1_score(y_test, y_predict))

real 0 real 1
predict 0 100 25
predict 1 15 39

accuracy : 0.776536312849162
precision : 0.7222222222222222
recall : 0.609375
f1_score : 0.6610169491525424

こんな結果になりました。
このデータでモデル作成をした場合は正答率(accuracy)でみると77.6%ほどの精度が出ています。

検証時の数値の見方ですが

まずは予測の結果は0と1に分かれます。
あらかじめ正解ラベルのデータも0と1に分かれているため、正誤表としては2x2のパターンがあります。

予測と実測の関係は次のようになります。

	実測0	実測1
予測0	100	25
予測1	15	39

ここから正解率(accuracy)を出していきます。正解率は
(実測0予測0の値 + 実測1予測1の値) / 全部の合計値
となります。

(100 + 39)/(100 + 25 + 15 + 39) = 139/179 = 0.7765

次に適合率(precision)です。適合率は
実測1予測1の値 / 予測1の値
となります。

39/(15 + 39) = 39/54 = 0.7222

次に再現率(recall)です。再現率は
実測1予測1の値 / 実測1の値
となります。

39/(25 + 39) = 39/64 = 0.609

最後にf1_scoreです。f1_scoreは
適合率と再現率の調和平均になります。

2 * 適合率 * 再現率 / (適合率 + 再現率)

2 * 0.7222 * 0.609 / (0.7222 + 0.609) = 0.8802 / 1.3316 = 0.6610

検証でどの数値に重きを置くかは機械学習の目的によって変わります。
今回は2値での判別をおこなっていますが、正解ラベルが満遍なく同じくらいの量分かれているなら正解率で良いでしょう。
どちらか一方のデータが少ないか多くて偏っている場合は正解率で出すと望ましくない場合があります。

例えば99:1の割合のデータだとしたら、多い方のラベルに全部合わせてしまえば正解率99%を取れることになります。
病気の診断をすることなどを考えてみてください。

全員病気でないというモデルを作れば、正解率だと99%ですが、残りの1%は見逃す結果になり、病気の人は困ります。
この場合だと多少間違ってもいいから病気の人を検出できるようにしたモデルでないと少数派を見逃すことになります。

適合率(precision)は陽性と予測されたデータのうち、実際に陽性であるものの割合であり、再現率(recall)は、実際の陽性のデータのうち、陽性と予測できたものの割合を表しています。

機械学習の目的が少数派をきちんと当てに行けることを見るのであれば再現率(recall)を重視してきちんと検出できるようなモデルを選ぶことがあります。

ただそうすると、引っかかりすぎも出てきます。
その場合は適合率(precision)と再現率(recall)を双方加味したf1_scoreを指標にしたりします。

他のモデル

他のモデルも見てみましょう。ここではモデルの紹介だけで詳細については触れません。
まずは決定木です。


# 決定木
clf = DecisionTreeClassifier()
clf.fit(x_train, y_train)
y_predict = clf.predict(x_test)
print(pd.DataFrame(confusion_matrix(y_predict, y_test), index=['predict 0', 'predict 1'], columns=['real 0', 'real 1']))
print()
print('accuracy  : ',accuracy_score(y_test, y_predict))
print('precision : ',precision_score(y_test, y_predict))
print('recall    : ',recall_score(y_test, y_predict))
print('f1_score  : ',f1_score(y_test, y_predict))

real 0 real 1
predict 0 95 26
predict 1 20 38

accuracy : 0.7430167597765364
precision : 0.6551724137931034
recall : 0.59375
f1_score : 0.6229508196721311

次はRandomForestです


# RandomForest
clf = RandomForestClassifier()
clf.fit(x_train, y_train)
y_predict = clf.predict(x_test)
print(pd.DataFrame(confusion_matrix(y_predict, y_test), index=['predict 0', 'predict 1'], columns=['real 0', 'real 1']))
print()
print('accuracy  : ',accuracy_score(y_test, y_predict))
print('precision : ',precision_score(y_test, y_predict))
print('recall    : ',recall_score(y_test, y_predict))
print('f1_score  : ',f1_score(y_test, y_predict))

real 0 real 1
predict 0 98 26
predict 1 17 38

accuracy : 0.7597765363128491
precision : 0.6909090909090909
recall : 0.59375
f1_score : 0.6386554621848739

寄与率の算出

機械学習のモデルではどのデータが寄与したのか、寄与率を出すことが出来るモノもあります。

clf.featureimportances


for i,v in zip(x_train.columns,clf.feature_importances_):
    print(i,'\t',v)

SibSp 0.08181730881501241
Parch 0.053030544663722166
Fare 0.40243782816341556
Sex2 0.28228147632317596
Pe_0.0 0.03352832009152742
Pe_1.0 0.014542002215684312
Pe_2.0 0.02212292439144309
Pe_3.0 0.022599544658725688
Pe_4.0 0.013099652111940165
Pe_5.0 0.013494114387414768
Pe_6.0 0.005599733163595443
Pe_7.0 0.002340597855733169
Pe_8.0 0.0030199997376331917
Em_C 0.012248329962351154
Em_N 0.0010747396045908525
Em_Q 0.010808812977944686
Em_S 0.025954070876089957

まとめ

昨日はデータを加工して機械学習用のデータマートを作成しました。
本日はそのデータを用いての予測モデルの作成と精度検証となります。
モデルの作成自体はかなり簡単にできるようになっていて、コードを書く量もかなり少なくなっています。

そのため、モデルの作成ではどのモデルを選択するかと言う点が重要になります。
コードを書く総量は少ないので、様々なモデルを作って検証し、一番精度の良いものを選んでいくという作業になります。

精度が低ければ、他のモデルも試し、それでも低ければデータの前処理に戻ってやり直すと言うサイクルになります。
納得のいくモデルができるまでこのサイクルを繰り返し、最悪データの取得からやりなおすと言うことになります。

まずは全体の流れを覚ましょう。

君がエンジニアになるまであと20日

作者の情報

乙pyのHP：
http://www.otupy.net/

Youtube：
https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter：
https://twitter.com/otupython

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up