0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PPOにおける損失関数の挙動と学習終了の判断

Posted at

価値損失と方策損失の変動による影響

損失関数 増加(上がる)場合 減少(下がる)場合
価値損失 • 価値関数の予測精度が低下している
• 環境が変化し、以前の価値推定が現状に合わない
• 学習率が高すぎて振動している
• 特定サンプルへの過学習が発生している
• 💡アクション: 学習率の調整、バッチサイズの増加、正則化の強化を検討
• 価値関数の予測精度が向上している(良い兆候)
• モデルが環境のダイナミクスを正しく学習している
• パラメータが最適点に向かって収束している
• ⚠️ 過度に減少する場合は、価値関数が単純すぎる可能性
• 💡アクション: 方策の改善も伴っているか確認
方策損失 • 方策が退化している
• 探索-活用のバランスが崩れている
• 重点サンプリング比が不安定化している
• 報酬信号にノイズがある
• 💡アクション: 学習率の低減、エントロピー係数の調整、クリッピングパラメータの見直し
• 方策が改善している(良い兆候)
• 方策と価値関数の整合性が向上している
• 適切な探索-活用バランスが実現できている
• ⚠️ 急激に減少する場合は、局所解への収束や過度な活用の懸念
• 💡アクション: 探索の度合いが十分か確認

学習終了の判断基準

判断基準 具体的な指標 判断方法
報酬の安定化 • 平均報酬
• 累積報酬
• 一定期間(例:100エピソード)の移動平均が横ばいか微増
• 報酬の分散が小さくなっている
損失値の変化率 • 価値損失の変化率
• 方策損失の変化率
• 変化率が十分小さい(例:前回比0.1%未満)
• 両方の損失関数が安定していることが重要
バリデーション
パフォーマンス
• 別環境での評価スコア
• 未見の初期条件での性能
• 要求性能レベルに達している
• バリデーションスコアの低下が始まると過学習の兆候
計算効率と
実用性
• 計算時間
• リソース消費
• タスク要件
• 利用可能な計算リソースを考慮
• 実用的な要件を満たせば十分と判断可能

アーリーストッピングのための統合的判断

学習を終了する条件:
1. 報酬の安定: 過去N回の平均報酬の変化が閾値以下
   AND
2. 損失の安定: 価値損失と方策損失の変化率が十分小さい
   AND
3. 以下のいずれか:
   - バリデーションスコアが目標値に到達
   - バリデーションスコアが連続M回低下
   - 計算時間/エピソード数が上限に到達
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?