強化学習
強化学習において、Q学習(Q-learning)はよく使われる手法の一つです。Q学習の更新式は以下の通りです。
Q(s, a) \leftarrow (1 - \alpha) \cdot Q(s, a) + \alpha \cdot \left( r + \gamma \cdot \max_{a'} Q(s', a') \right) \
ここで、各記号は以下の意味を持ちます。
- ( Q(s, a) ): 状態 (s) で行動 (a) を取ったときの行動価値(Q値)
- ( alpha ): 学習率(0から1の間の値)
- ( r ): 状態 (s) で行動 (a) を取った直後に得られる報酬
- ( gamma ): 割引率(0から1の間の値)
- ( s' ): 行動 (a) を取った後の次の状態
この更新式は、現在のQ値を過去の値と新しい情報を組み合わせて更新しています。学習率 \( \alpha \) は新しい情報の重みを調整し、割引率 \( \gamma \) は将来の報酬に対する影響を調整します。 \( \max_{a'} Q(s', a') \) は次の状態 \( s' \) での最大のQ値を取得しています。