More than 3 years have passed since last update.

機械学習入門 vol.7 回帰 - ランダムフォレストとパラメータチューニング

Last updated at 2021-12-21Posted at 2021-12-09

本コンテンツは機械学習入門講座を各所でやっている内容の一部を、受講者の皆様の予習・復習のために公開しているものです。対象読者は、Pythonをやったことがほとんどない方やつまづいてしまっている方でも概ね実行できるようになるレベルで書いています。解説は講座でそれなりに詳しくしているため、コードにコメントする以上の説明はあまり記述していません。

各コードはJupyterシリーズやiPythonで記述しながら実行できるように記述しています。

AI/DX/機械学習/Pythonのアドバイザリー、社内研修、セミナー等承っております。
webサイトからお問い合わせください。
BeeComb Grid株式会社

機械学習入門シリーズ記事

機械学習入門 vol.1 Pythonの基礎１記述とデータ型 -> 講座第3回に相当
機械学習入門 vol.2 Pythonの基礎2 条件分岐と処理 -> 講座第3回に相当
機械学習入門 vol.3 Pythonの基礎3 関数・クラス・モジュール -> 講座第3回に相当
機械学習入門 vol.4 表（Pandas）の基本操作 -> 講座第3回/第4回に相当
機械学習入門 vol.5 グラフ(Seaborn)の基本操作 -> 講座第3/4回に相当
機械学習入門 vol.6 回帰 - 線形回帰 -> 講座第4回に相当
機械学習入門 vol.7 回帰 - ランダムフォレストとパラメータチューニング -> 講座第4回に相当
機械学習入門 vol.8 回帰 - その他の回帰 (k近傍法,ラッソ回帰,リッジ回帰..etc) -> 講座第4回に相当
機械学習入門 vol.9 判別（分類） -> 講座第5回に相当
機械学習入門 vol.10 次元削減 -> 講座第6回に相当
機械学習入門 vol.11 クラスタリング -> 講座第6回に相当

機械学習入門 vol.7 回帰 - ランダムフォレストとパラメータチューニング

ランダムフォレストはアンサンブル学習の一つで、回帰にも判別にも利用できる機械学習アルゴリズムです。今回では、ランダムフォレスト回帰の実装であるRandomForestRegressorを利用して学習・予測をしてみたのちにハイパーパラメータのチューニングを行なって精度向上を図る方法を実践してみます。

# ランダムフォレスト回帰をインポート
from sklearn.ensemble import RandomForestRegressor
# 絶対平均誤差のインポート
from sklearn.metrics import mean_absolute_error

# 学習時間と合計点数を取り出し
data_x = df.loc[:,'国語':'社会']
data_y = df['週の学習時間']
# データをトレーニング用と検証用に分割
train_x, test_x, train_y, test_y = train_test_split(data_x, data_y, test_size=0.2)
# ランダムフォレスト回帰インスタンス
forest = RandomForestRegressor()
# ランダムフォレストで学習
forest.fit(train_x, train_y)

上記でトレーニングは終了です。ランダムフォレストでは学習に利用したパラメータの寄与度（重要度・貢献度）を表示して、どのパラメータが学習に影響があったのかを0-1の値で見ることができます。

# パラメータの寄与度を表示
print(forest.feature_importances_)

前回同様に平均絶対誤差をみて精度を確認してみましょう。

# テストデータを予測する
predicteds = forest.predict(test_x)
predicteds
# 精度検証
mean_absolute_error(test_y, predicteds)

講座内でやった、折れ線グラフでサンプルごとの予測・正解の値がどれだけずれているのか可視化してみましょう。

import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(20,10))
plt.plot(test_y.values,label="True")
plt.plot(predicteds, label="Predicted")
plt.legend()
plt.title('比較')
plt.xlabel('サンプル番号')
plt.ylabel('時間')
plt.show()

ハイパーパラメータのチューニング

RandomForestRegressorの事前パラメータについては講座で説明しました。GridSearchCVクラスを利用して、ハイパーパラメータの組み合わせを実行して精度高く学習できた機械学習モデルを取り出す手順を実行してみましょう。

# GridSearchCVをインポート
from sklearn.model_selection import GridSearchCV
# 試したいハイパーパラメータを各々に配列で用意
params = {
    'n_estimators'  : [4, 8, 16, 32],
    'max_depth' : [8, 16, 32, 64],
    'n_jobs': [-1]
}

GridSearchCVクラスでfitをコールしトレーニングします。

# GridSearchCVにランダムフォレストと試行パラメータを
# 渡してインスタンス作成
cv = GridSearchCV(
    RandomForestRegressor(),
    params,
    verbose=2
)
# トレーニング
cv.fit(train_x, train_y)

トレーニングが完了したモデルインスタンスがGridSearchCVクラスに格納されているので取り出して利用してみます。

# もっとも精度が良かったモデルを取り出して予測
forest = cv.best_estimator_
preds = forest.predict(test_x)
# 精度検証
mean_absolute_error(test_y, preds)

機械学習入門シリーズ記事

機械学習入門 vol.1 Pythonの基礎１記述とデータ型 -> 講座第3回に相当
機械学習入門 vol.2 Pythonの基礎2 条件分岐と処理 -> 講座第3回に相当
機械学習入門 vol.3 Pythonの基礎3 関数・クラス・モジュール -> 講座第3回に相当
機械学習入門 vol.4 表（Pandas）の基本操作 -> 講座第3回/第4回に相当
機械学習入門 vol.5 グラフ(Seaborn)の基本操作 -> 講座第3/4回に相当
機械学習入門 vol.6 回帰 - 線形回帰 -> 講座第4回に相当
機械学習入門 vol.7 回帰 - ランダムフォレストとパラメータチューニング -> 講座第4回に相当
機械学習入門 vol.8 回帰 - その他の回帰 (k近傍法,ラッソ回帰,リッジ回帰..etc) -> 講座第4回に相当
機械学習入門 vol.9 判別（分類） -> 講座第5回に相当
機械学習入門 vol.10 次元削減 -> 講座第6回に相当
機械学習入門 vol.11 クラスタリング -> 講座第6回に相当

AI/DX/機械学習/Pythonのアドバイザリー、社内研修、セミナー等承っております。
webサイトからお問い合わせください。
BeeComb Grid株式会社

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up