価値損失と方策損失の変動による影響
損失関数 | 増加(上がる)場合 | 減少(下がる)場合 |
---|---|---|
価値損失 | • 価値関数の予測精度が低下している • 環境が変化し、以前の価値推定が現状に合わない • 学習率が高すぎて振動している • 特定サンプルへの過学習が発生している • 💡アクション: 学習率の調整、バッチサイズの増加、正則化の強化を検討 |
• 価値関数の予測精度が向上している(良い兆候) • モデルが環境のダイナミクスを正しく学習している • パラメータが最適点に向かって収束している • ⚠️ 過度に減少する場合は、価値関数が単純すぎる可能性 • 💡アクション: 方策の改善も伴っているか確認 |
方策損失 | • 方策が退化している • 探索-活用のバランスが崩れている • 重点サンプリング比が不安定化している • 報酬信号にノイズがある • 💡アクション: 学習率の低減、エントロピー係数の調整、クリッピングパラメータの見直し |
• 方策が改善している(良い兆候) • 方策と価値関数の整合性が向上している • 適切な探索-活用バランスが実現できている • ⚠️ 急激に減少する場合は、局所解への収束や過度な活用の懸念 • 💡アクション: 探索の度合いが十分か確認 |
学習終了の判断基準
判断基準 | 具体的な指標 | 判断方法 |
---|---|---|
報酬の安定化 | • 平均報酬 • 累積報酬 |
• 一定期間(例:100エピソード)の移動平均が横ばいか微増 • 報酬の分散が小さくなっている |
損失値の変化率 | • 価値損失の変化率 • 方策損失の変化率 |
• 変化率が十分小さい(例:前回比0.1%未満) • 両方の損失関数が安定していることが重要 |
バリデーション パフォーマンス |
• 別環境での評価スコア • 未見の初期条件での性能 |
• 要求性能レベルに達している • バリデーションスコアの低下が始まると過学習の兆候 |
計算効率と 実用性 |
• 計算時間 • リソース消費 • タスク要件 |
• 利用可能な計算リソースを考慮 • 実用的な要件を満たせば十分と判断可能 |
アーリーストッピングのための統合的判断
学習を終了する条件:
1. 報酬の安定: 過去N回の平均報酬の変化が閾値以下
AND
2. 損失の安定: 価値損失と方策損失の変化率が十分小さい
AND
3. 以下のいずれか:
- バリデーションスコアが目標値に到達
- バリデーションスコアが連続M回低下
- 計算時間/エピソード数が上限に到達