**深層強化学習(Deep Reinforcement Learning, Deep RL)**とは、
**強化学習(Reinforcement Learning)と深層学習(Deep Learning)**を組み合わせた技術です。
それぞれ簡単に整理すると:
-
強化学習:
エージェント(AI)が「環境」の中で行動し、「報酬」をもらいながら、どう行動すれば最も高い報酬を得られるかを学ぶ仕組みです。
例:ロボットが迷路を脱出するにはどう動けばいいかを試行錯誤で覚える。 -
深層学習:
ニューラルネットワーク(特にディープな層を持つもの)を使って、複雑なパターン認識や関数近似を行う技術です。
例:画像から犬と猫を判別する。
深層強化学習はこれらを組み合わせて、
「環境の情報(状態)」から「最適な行動」を選ぶためにディープニューラルネットワークを使う、という考え方です。
簡単に言うと:
複雑な状況の中で、試行錯誤しながらニューラルネットワークで賢く行動を学ぶ方法
です。
例えば有名な事例は:
- AlphaGo(囲碁のAI)
- ロボットの自動制御
- ゲームプレイ(例:Atariのゲームを人間よりうまくプレイするAI)
などです。
ポイントまとめ
- 従来の強化学習では「状態→行動」の対応をテーブル(表)で管理していたけど、現実はもっと状態が複雑なので、表じゃ無理。
- そこでニューラルネットワークで「状態→行動」を近似する。
- 深層学習によって、視覚情報や複雑な状態空間でも強化学習ができるようになった。