強化学習(Reinforcement Learning, RL)
エージェントが環境と相互作用しながら、目標を達成するために最適な行動を学ぶ機械学習の一分野。その中でも、価値ベース学習(Value-Based Learning) と ポリシーベース学習(Policy-Based Learning) は、強化学習で累積報酬を最大化するための2つの主要なアプローチです。
強化学習の基本構造
強化学習は、以下の要素で構成されています。
エージェント(Agent)
学習を行う主体。環境から状態を観測し、行動を選択します。
環境(Environment)
エージェントが行動を行う場で、エージェントの行動に応じて報酬と次の状態を提供します。
状態(State, 𝑆)
現在の環境の状況を表します。例:ロボットの位置やゲーム画面のフレーム。
行動(Action, A)
エージェントが選択できる動作や選択肢。例:右に移動する、ジャンプする。
報酬(Reward, R)
行動の結果として得られるフィードバック。
目標は、この報酬の累積値を最大化すること。
価値ベース学習(Value-Based Learning)とは?
基本の考え方
- 状態Sや状態と行動のペアQ(s,a)の価値を計算し、最も価値が高い行動を選ぶ手法
- [どの様態や行動が将来的に得られる報酬が大きいか]を計算する事に重点を置いている。
例:バスケの試合
状態と行動
状態s:プレイヤーが現在いる位置を表す
- s1:フルースロー付近にいる状態
- s2:ゴール下にいる状態
- s3:スリーポイントラインにいる状態
行動a:プレイヤーが選べる選択肢
- a1 : シュートを打つ
- a2 : 味方にパス
- a3 : ドリブルし、別の位置に移動する
行動価値(Q値)を考える
状態s1にいる場合の各坑道の価値を計算する
- Q(s1,a1)=7 ゴール下へドリブル → 得点チャンスがUP
- Q(s1,a2)=4 その場でシュート → 得点確率が中程度
- Q(s1,a3)=6 パス → 見方が良いポジションでシュートできる可能性
最適な行動
Q(s1,a1)が最も高いので、ゴールしたへドリブルするを選ぶ
ポリシーベース学習(Policy-Based Learning)とは?
基本の考え方
- 「行動を選ぶ確率(ポリシー)」を直接学習する手法です。
- 状態sにおいて、行動aを選ぶ確率を表すポリシーπ(a|s)を学習する
バスケの試合
状態と行動
状態s;フリースローライン付近にいる状態
行動a
- a1:シュートを打つ
- a2:味方にパスする
- a3:どり物して別の位置に移動する
ポリシーを考える
状態s1にいる場合、以下の確率で行動を選択
- P(a1|s1) = 50% シュートを選ぶ確率
- P(a2|s1) = 30% パスを選ぶ確率
- P(a3|s1) = 20% ドリブルを選ぶ確率
行動選択
50%の確率でシュートを選び、30%の確率でパスを選ぶ
価値ベース学習(Value-Based Learning)
状態や行動の価値を計算し、それを基に最適な行動を選ぶ。
バスケでは「得点できる期待値」を計算し、最も期待値が高い行動を選択します。
常に安全な選択を行い、確率的に失敗しそうな行動を選ばない。そのため、探索が弱い
期待値の行動を選び続けるため、未知の行動を試さない。
その結果、未来の事を考えずに今見えている現状の最適解を求める短期てな戦略になりやすい
ポリシーベース学習(Policy-Based Learning)
行動を選ぶ確率を直接学習し、柔軟に行動を選択。
バスケでは「シュートの確率70%、パスの確率20%」のように確率で行動を選びます。
期待値の低い行動をとる場合があるため、これが長期的なメリットをもたらす可能性がある。
例えば、スリーポイントシュートの確率は低いが得点が高いため、この選択によって試合に勝利する可能性もある。
とはいえ、短期的に悪い選択を取る可能性があり、行動が安定せず、不安定な結果になる場合がある。
項目 | 価値ベース(Value-Based) | ポリシーベース(Policy-Based) |
---|---|---|
行動選択方法 | 最大価値の行動を選ぶ(決定論的)。 | 確率的に行動を選ぶ。 |
保守性 | 保守的(短期的に最適な行動を選びがち)。 | リスクを取る可能性がある(長期的な視野)。 |
探索の柔軟性 | 低い(新しい行動を試しにくい)。 | 高い(リスクを取って新しい選択肢を試せる)。 |
安定性 | 高い(予測可能で一貫した行動)。 | 低い(行動が確率に基づき変動する)。 |
短期と長期の視点 | 短期的な最適解を求める。 | 長期的な視点で探索を行う。 |
失敗のリスク | 失敗の可能性が低い(安全な行動を選ぶ)。 | 確率的に「悪い行動」を選ぶこともあるが、成長の余地がある。 |
ゴール | 「どの状態でどの行動を選ぶべきか」の戦略を最適化していく | 「各状態や行動がどれだけの価値を持つか」を学ぶ |