強化学習とは、長期的な観点で、得られる報酬を最大化できる環境の中で行動を選択できるエージェントを作成することを目的とした機械学習の一分野。行動の結果として得られる報酬を学習し、行動を決定する原理を改善していく仕組みである。過去のデータでベストとされる行動のみとり続けると他にもっとよい行動を見つけることができない(探索がたりない)。一方未知の行動のみとり続ければ、過去の経験を生かせない(利用がたりない)。これらの関係性を探索と利用のトレードオフと呼び、これを最適化するのが強化学習である。
More than 3 years have passed since last update.
Register as a new user and use Qiita more conveniently
- You get articles that match your needs
- You can efficiently read back useful information
- You can use dark theme
List of users who liked
00