1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

強化学習・転移学習・知識選択の計算式

Posted at

強化学習

強化学習において、Q学習(Q-learning)はよく使われる手法の一つです。Q学習の更新式は以下の通りです。

Q(s, a) \leftarrow (1 - \alpha) \cdot Q(s, a) + \alpha \cdot \left( r + \gamma \cdot \max_{a'} Q(s', a') \right) \

ここで、各記号は以下の意味を持ちます。

- ( Q(s, a) ): 状態 (s) で行動 (a) を取ったときの行動価値(Q値)
- ( alpha ): 学習率(0から1の間の値)
- ( r ): 状態 (s) で行動 (a) を取った直後に得られる報酬
- ( gamma ): 割引率(0から1の間の値)
- ( s' ): 行動 (a) を取った後の次の状態
この更新式は、現在のQ値を過去の値と新しい情報を組み合わせて更新しています。学習率 \( \alpha \) は新しい情報の重みを調整し、割引率 \( \gamma \) は将来の報酬に対する影響を調整します。 \( \max_{a'} Q(s', a') \) は次の状態 \( s' \) での最大のQ値を取得しています。
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?