【特訓 ver.7】アンサンブル学習スタート!!
※この記事では、アンサンブル学習についてまとめます
▼学習の流れ
まずはアンサンブル学習の基本を押さえ、具体的な分析例を通して理解を深める。
■使用するデータ
乳がんに関するデータ(全データ569)
説明変数:30個(腫瘍の半径、面積、深さ・・・)
目的変数:0は悪性(癌である)、1は良性(癌でない)
このデータを使用して、様々な測定値に基づいて腫瘍が悪性か良性かを予測するモデルを構築していく。
※データセット:後日(breast_cancer_data.csv)
■ アンサンブル学習について学習する
上記のデータを用いて、複数のモデルを組み合わせた「アンサンブル学習」を実施していく。
大まかな流れ)
① データ読み込みや前処理、分割
- 必要に応じて質的変数の数値化(エンコーディング)を行う
② モデルの設定と訓練
- 「アンサンブル学習」で実施する
- 決定木(前回までの復習)
- バギング(ランダムフォレスト)
- ブースティング(LightGBM)
上記3つのモデルを用いて、精度の違いを③で確認していく。
③ モデルの精度の確認
- 精度について、以下6項目で確認していく
(1) 混同行列(confusion matrix)
(2) 正解率(accuracy)
(3) 適合率(precision)
(4) 再現率(recall)
(5) F1スコア(F1-score)
(6) AUC(曲線下面積)
▼復習
これまでの学習で、機械学習の分類手法として、SVM(サポートベクターマシン)や決定木などを学んできた。これらの手法は、それぞれ特徴があり、データの特性や問題に応じて使い分けることが重要である。
しかし、単一のモデルでは限界がある場合も多い。そこで、複数のモデルを組み合わせて、より高い予測精度を得る手法が「アンサンブル学習」である。
▼アンサンブル学習とは?
アンサンブル学習とは、複数のモデルを組み合わせて、よりよい予測を行う手法である。1つのモデルだけで学習させるよりも、複数のモデルを組み合わせた方が予測精度の向上が期待できる。
歌の世界でも、「アンサンブル」という言葉がある。
以下の図のとおり、複数名で音色をきれいに響かせるものを示す。対して、1人で歌うこともあると思う。こんなイメージ!
以下、図のとおり、複数の歌手が調和してきれいな音色を作り出すことを指す。一人で歌う場合と比較して、一層豊かで深みのある演奏を創り出すことができる。このように、アンサンブル学習もまた、単一のモデルではなく、複数のモデルが協力することで、より正確で信頼性の高い結果を生み出すことができる。
左図:アンサンブル合唱 右図:ソロさて、ここで、人工知能には3種類の誤差が含まれることを知っておきたい。
「バイアス」と「バリアンス」と「ノイズ」である。
バイアスとは、モデルの予測値と実際の値との差を示す。
バリアンスとは、モデルの予測値のばらつきを示す。
ノイズとは、偶然に発生したズレを示し、減らせない誤差である。
バイアスを減らすための手法として、パラメータチューニングを用いる。
バリアンスを減らすための手法として、アンサンブル学習を用いる。
現時点での理解としては、予測モデルの精度を高めるために、バイアスやバリアンスを調整する必要があり、そのためにアンサンブル学習を用いるという認識でよい。
▼ 視覚的に表現!(バイアスとバリアンス)
1次関数(未学習)、4次関数(ちょうどいい)、15次関数(過学習)を用いて、バイアスとバリアンスを図示していく。
また、トレードオフの関係についてイメージを持っていく。
▼ バイアスについて
理想の線は、青色の曲線。
degree=1
(左図)の場合は、単回帰(1次関数)のため、理想の線との差分も大きい(=バイアスが大きい)。
▼ バリアンスについて
degree=1
(左図)の場合は、単純なモデルのため、何回試行しても結果があまり変わらない(=バリアンスが小さい)。
▼ トレードオフについて(まとめ)
degree=1
の場合は、バイアスが大きく、バリアンスが小さい。
ただ、バイアス(理想モデルとの差分)を減らしていくと、バリアンスが大きくなってしまい、精度が低くなる。バイアスが増えるとバリアンスが減り、このバランスを保つことが大切。そのためにアンサンブル学習を用いる。
▼アンサンブル学習の代表的な手法
① バギング(Bagging)
ブートストラップ法で生成した複数のデータセットを用いて、それぞれのモデル(弱学習器)を学習させ、最終的にそれらのモデルの予測結果を平均化(または多数決)する手法である。
ブートストラップ法
:元のデータセットからランダムに重複を許してサンプリングし、新たなデータセットを作成する方法。
特徴:
バリアンスを小さくできるため、過学習を防ぐ効果がある。
並列処理で行うため、学習時間が短い。
代表的なモデル:
ランダムフォレスト(Random Forest)
② ブースティング(Boosting)
同じデータセットに対して、複数のモデルを順次学習させる手法である。各ステップで前のモデルの誤差を補正するように次のモデルを学習させ、最終的にそれらを組み合わせて強力なモデルを構築する。
特徴:
バイアスを小さくできるため、高い予測精度が期待できる。
直列処理で行うため、学習時間が長くなる。
代表的なモデル:
勾配ブースティング(Gradient Boosting)
XGBoost
LightGBM
③ スタッキング(Stacking)
異なる種類のモデルの予測結果を新たなデータとして用い、メタモデル(上位のモデル)を学習させる手法である。
特徴:
予測精度の向上が期待できる。
結果の解釈や分析が複雑になる。
学習時間が長くなる。
それでは実際に使ってみよう!!
【アンサンブル学習】
大まかな流れ
① データ読み込みや前処理、分割
- 必要に応じて質的変数の数値化(エンコーディング)を行う
② モデルの設定と訓練
- 1. 決定木(前回までの復習)の実装
- 2. バギング(ランダムフォレスト)の実装
- 3. ブースティング(LightGBM)の実装
③ モデルの精度の確認
- 精度について、以下6項目で確認していく
(1) 混同行列(confusion matrix)
(2) 正解率(accuracy)
(3) 適合率(precision)
(4) 再現率(recall)
(5) F1スコア(F1-score)
(6) AUC(曲線下面積)
<データの準備>
① データ読み込みや前処理、分割
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# データの読み込み
df = pd.read_csv("/content/breast_cancer_data.csv")
df.head()
↑ 乳がんに関するデータ(全データ569)
説明変数【下記以外の全て】:30個(腫瘍の半径、面積、深さ 等)
目的変数【type】:0が悪性(癌)、1が良性(癌でない)
#説明変数と目的変数に分ける
x = df.drop(["type"],axis=1).values
y = df["type"].values
#データを学習用と検証用に分割
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(
x,y,train_size=0.7,random_state=0)
データの準備完了!
② モデルの設定と訓練
決定木、ランダムフォレスト、LightGBMそれぞれで実装し、モデル精度の違いについて検証していく。
(※各モデルは、同条件下にするためハイパーパラメータも調整済)
1. 決定木(前回までの復習)の実装
#決定木
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(max_depth = None, min_samples_leaf = 1, min_samples_split = 10)
model.fit(x_train,y_train)
2. バギング(ランダムフォレスト)の実装
#ランダムフォレスト
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100)
model.fit(x_train, y_train)
3. ブースティング(LightGBM)の実装
#LightGBM
import lightgbm as lgb
model = lgb.LGBMClassifier(learning_rate = 0.5, max_depth = -1, n_estimators = 100, num_leaves = 31)
model.fit(x_train,y_train)
③ それぞれのモデルの精度を確認
# 混同行列の出力
from sklearn.metrics import confusion_matrix,precision_score,recall_score,f1_score,roc_auc_score
# 混同行列の出力
print("Confusion Matrix:")
print(confusion_matrix(y_true=y_test, y_pred=model.predict(x_test)))
# 性能指標の計算と表示
print("正解率(train) =", model.score(x_train, y_train))
print("正解率(test) =", model.score(x_test, y_test))
print("適合率 =", precision_score(y_true=y_test, y_pred=model.predict(x_test)))
print("再現率 =", recall_score(y_true=y_test, y_pred=model.predict(x_test)))
print("F1スコア =", f1_score(y_true=y_test, y_pred=model.predict(x_test)))
print("AUC =", roc_auc_score(y_true=y_test, y_score=model.predict_proba(x_test)[:, 1]))
上記をテンプレートとして、分類の結果をそれぞれ出力する。
左図:1.決定木
中図:2.ランダムフォレスト
右図:3.LightGBM
多くの評価指標(正解率、再現率、F1スコア、AUC)において、LightGBMが最も高い性能を示している。また、同じくランダムフォレストも非常に高い性能を示しており、LightGBMに次ぐ性能。特に、適合率が高く、用途に応じてこちらのモデルを使用するケースもありそう。
一方で、決定木は他の二つのモデルと比較してやや劣る結果となっており、特にテストデータに対する正解率、AUCが他のモデルより低い。
<考察>
LightGBMが高い性能を示した理由としては、ブースティング手法により、各モデルが前のモデルの誤差を補正しながら学習したため、データの複雑なパターンをより正確に捉えることができた。
一方、ランダムフォレストはバギング手法により、多数の決定木を組み合わせて予測することで、個々のモデルのばらつきを平均化し、安定した予測ができた。
決定木は単一のモデルであるため、データに対する適合度が前述のアンサンブル手法と比較して劣る場合もあり、過学習や未学習のリスクが高く、モデルの汎化性能が低下する可能性もある。
<まとめ>
アンサンブル学習は、複数のモデルを組み合わせることで、単一のモデルよりも高い予測精度を達成する手法である。
決定木分析などの単一モデルをパワーアップさせたものがアンサンブル学習(ランダムフォレスト、LightGBM)と認識されがちであるが、デメリットもあり、モデルの解釈が難しくなり、学習時間が長くなる傾向にある。
また、扱うデータによっては、決定木の方が精度が高くなる場面もある。
以上。