株式会社BinaryTech | 日本品質 × ベトナム開発、最高のバランスを。

猿でもわかるAIプログラミングシリーズ 🐵💻 ハイパーパラメータって何？初心者向けに解説

Posted at 2025-06-06

ハイパーパラメータって何？初心者向けに解説してみた

1. はじめに：精度が上がらないのはなぜ？それ、ハイパーパラメータが原因かも！

機械学習モデルを作ってみたけど、思ったより精度が出ない。
精度はいいけど、学習に時間がかかりすぎる。
そんな経験、ありませんか？

その原因の一つが**ハイパーパラメータ（Hyperparameter）**です。

本記事では、「ハイパーパラメータってそもそも何？」「なぜ重要なの？」「どうやって調整するの？」という疑問を、実際のPythonコードと共にわかりやすく解説していきます。

対象読者は、

機械学習に入門したてのエンジニアの方
実務でAIモデルを触っているけど、ハイパーパラメータ調整で悩んでいる方
自分で試行錯誤しながらモデルを育ててみたい方
です。

2. ハイパーパラメータって何？

まず定義から。

ハイパーパラメータとは、学習前に自分で設定するパラメータのこと。

これに対して、モデルが自動的に学習するパラメータ（例えば重みやバイアス）は**パラメータ（Parameter）**と呼ばれます。

例として、scikit-learn の RandomForestClassifier を考えてみましょう：

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, max_depth=5)

ここでの n_estimators や max_depth がハイパーパラメータです。
これらは学習前に人間が指定しないといけないんですね。

よく出てくるハイパーパラメータの例

モデル	ハイパーパラメータ	意味
線形回帰	正則化係数 `alpha`	過学習防止のための制約
ランダムフォレスト	`n_estimators`, `max_depth`	木の数、深さの上限
ニューラルネット	学習率 `learning_rate`, エポック数 `epochs`	学習の進み方に影響

3. 実際に試してみよう：ハイパーパラメータが精度に与える影響

例題：乳がんデータセットでランダムフォレストを比較

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データの準備
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    data.data, data.target, test_size=0.3, random_state=42
)

# ハイパーパラメータ①: 木の数＝10
model1 = RandomForestClassifier(n_estimators=10, random_state=42)
model1.fit(X_train, y_train)
print("n_estimators=10:", accuracy_score(y_test, model1.predict(X_test)))

# ハイパーパラメータ②: 木の数＝100
model2 = RandomForestClassifier(n_estimators=100, random_state=42)
model2.fit(X_train, y_train)
print("n_estimators=100:", accuracy_score(y_test, model2.predict(X_test)))

出力例：

n_estimators=10: 0.9181
n_estimators=100: 0.9532

精度が上がりましたね！これは、ハイパーパラメータ n_estimators を調整した効果です。

4. 実務で役立つTips ＆よくある落とし穴

✅ Tips

少数データの場合、過学習に注意：ハイパーパラメータを増やすと精度が上がるように見えるが、汎化性能が落ちることも。
自動調整ツールを使おう：GridSearchCV や Optuna を使えば、試行錯誤を自動化できて便利。
ログを残す仕組みを作る：パラメータごとの結果を記録しておくと再現性UP！

❌ よくあるミス

固定seedを使わない：ランダム性に左右されるので random_state は必ず指定しよう。
学習率が大きすぎて発散：ディープラーニング系では learning_rate=0.1 以上は基本NG。
全部の組み合わせを試す → 時間切れ：実務ではコストとのバランスも大事！

5. さらに進んだ調整方法：Optunaでベイズ最適化

ランダムに調整するより、もっと賢く最適化するにはベイズ最適化が有効です。

import optuna
from sklearn.model_selection import cross_val_score

def objective(trial):
    n_estimators = trial.suggest_int("n_estimators", 10, 200)
    max_depth = trial.suggest_int("max_depth", 2, 20)
    
    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        random_state=42
    )
    return cross_val_score(model, X_train, y_train, cv=3).mean()

study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=30)

print("Best trial:", study.best_trial.params)

このように、効率的に最適なハイパーパラメータを探せるようになります。

6. まとめ：ハイパーパラメータ調整は「育てゲー」

✅ メリット

モデル精度が大きく向上
過学習やアンダーフィッティングを防止
自動化で再現性のある運用が可能に

❌ デメリット

手動だと非常に時間がかかる
ハイパーパラメータの意味を知らないとチューニングが難しい

📝 最後に

AIモデルを作るとき、ハイパーパラメータのチューニング＝モデルを“育てる”作業です。
最初はうまくいかなくても、トライ＆エラーで最適化していくことが重要です。

📎 参考リンク

もしこの記事が役に立ったら、「いいね」や「ストック」していただけると嬉しいです！質問やフィードバックもお気軽にどうぞ 🙌

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up