More than 1 year has passed since last update.

強化学習・転移学習・知識選択の計算式

強化学習

Posted at 2024-03-01

強化学習

強化学習において、Q学習（Q-learning）はよく使われる手法の一つです。Q学習の更新式は以下の通りです。

Q(s, a) \leftarrow (1 - \alpha) \cdot Q(s, a) + \alpha \cdot \left( r + \gamma \cdot \max_{a'} Q(s', a') \right) \

ここで、各記号は以下の意味を持ちます。

- ( Q(s, a) ): 状態 (s) で行動 (a) を取ったときの行動価値（Q値）

- ( alpha ): 学習率（0から1の間の値）

- ( r ): 状態 (s) で行動 (a) を取った直後に得られる報酬

- ( gamma ): 割引率（0から1の間の値）

- ( s' ): 行動 (a) を取った後の次の状態

この更新式は、現在のQ値を過去の値と新しい情報を組み合わせて更新しています。学習率 \( \alpha \) は新しい情報の重みを調整し、割引率 \( \gamma \) は将来の報酬に対する影響を調整します。 \( \max_{a'} Q(s', a') \) は次の状態 \( s' \) での最大のQ値を取得しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up