はじめに
こんにちは。2026年1月のG検定に合格した、文系出身のエンジニアです。
G検定の勉強をしていて、「強化学習」の分野で頭がパンクしそうになった経験はありませんか?Q学習、DQN、方策勾配法、AlphaGo……。似た用語が次々と出てきて、「結局どれがどれ?」と混乱する方も多いと思います。
私も最初はまったく同じ状態でした。でも、強化学習はストーリーとして流れを掴むと一気に理解が進みます。この記事では、G検定に出る強化学習の重要トピックを「つながり」を意識しながら整理していきます。
そもそも強化学習とは?
強化学習を一言でいうと、**「試行錯誤しながら、もらえるご褒美が最大になる行動を学ぶ仕組み」**です。
教師あり学習が「正解を教えてもらって学ぶ」のに対し、強化学習は「とりあえずやってみて、結果が良ければその行動を繰り返す」という学び方をします。ゲームのプレイヤーが、何度もやり直しながら上手くなっていくイメージです。
G検定で押さえるべき基本用語はこちらです。
| 用語 | 意味 | イメージ |
|---|---|---|
| エージェント | 行動する主体 | ゲームのプレイヤー |
| 環境 | エージェントが行動する世界 | ゲームのステージ |
| 状態(State) | 今どんな状況か | プレイヤーの現在位置 |
| 行動(Action) | エージェントが取る選択 | 上下左右に動く |
| 報酬(Reward) | 行動の結果もらえるスコア | コインを拾う=+1点 |
| 方策(Policy) | どの状態でどう行動するかのルール | 攻略法・戦略 |
Q学習:強化学習の基本
Q学習は、「この状態でこの行動をとったら、将来どれくらい報酬がもらえそうか」をQ値という数値で表にまとめる手法です。
たとえば迷路ゲームなら、各マスで「右に行ったときのQ値」「左に行ったときのQ値」をテーブルに記録し、Q値が一番高い行動を選べばゴールに辿り着ける、というわけです。
G検定での出題ポイント
- Q学習は価値ベースの手法(行動の価値を数値化して判断する)
- ε-greedy法: 基本はQ値が高い行動を選ぶが、一定確率でランダムな行動を試す。探索(新しい行動を試す)と活用(良い行動を繰り返す)のバランスをとる仕組み
DQN:ディープラーニング×強化学習
Q学習には弱点があります。状態の数が増えると、テーブルが巨大になりすぎて管理しきれなくなるのです。囲碁の盤面パターンは約10の170乗通り。テーブルに書き切るのは不可能ですよね。
そこで登場したのがDQN(Deep Q-Network)です。Q値のテーブルの代わりにニューラルネットワークを使ってQ値を近似(予測)します。
DQNの画期的な点は、2015年にDeepMindが発表した論文で、Atariの49種類のゲームをプレイさせ、人間のスコアを上回る成績を達成したことです。ゲーム画面の画像(ピクセル情報)を入力として、最適な操作を学習しました。
DQNの重要テクニック(G検定頻出)
| テクニック | 内容 | 何が嬉しいか |
|---|---|---|
| Experience Replay | 過去の経験をメモリに溜めてランダムに学習 | データの偏りを防いで安定した学習ができる |
| Target Network | Q値の更新に使うネットワークを一定期間固定 | 学習が振動するのを防いで安定させる |
方策勾配法:もう一つのアプローチ
DQNは「行動の価値」を学ぶ方法でしたが、方策勾配法は「行動の選び方(方策)そのもの」を直接学びます。
イメージでいうと、DQNが「各行動に点数をつけて、一番高い点数の行動を選ぶ」のに対し、方策勾配法は「良い結果が出た行動の選択確率を上げる」という考え方です。
G検定での出題ポイント
- REINFORCE: 方策勾配法の基本アルゴリズム。報酬が高かった行動の確率を上げるシンプルな仕組み
- Actor-Critic: 方策(Actor)と価値関数(Critic)の2つのネットワークを組み合わせた手法。REINFORCEより安定した学習が可能
- PPO(Proximal Policy Optimization): 方策の更新幅を制限して安定性を高めた手法。ChatGPTなどのLLMのファインチューニング(RLHF)でも使われている
価値ベース vs 方策勾配:ざっくり比較
| 価値ベース(Q学習・DQN) | 方策勾配法 | |
|---|---|---|
| 学ぶもの | 行動の価値(Q値) | 行動の選び方(方策) |
| 代表手法 | Q学習、DQN | REINFORCE、PPO |
| 得意な場面 | 行動の選択肢が少ない | 行動が連続的・複雑 |
| 弱点 | 連続行動空間に弱い | 学習が不安定になりやすい |
AlphaGo → AlphaGo Zero → AlphaZero
G検定で強化学習といえば、AlphaGoの系譜は避けて通れません。ここは進化の流れをストーリーで掴みましょう。
AlphaGo(2016年)
- DeepMindが開発し、プロ棋士イ・セドルに4勝1敗で勝利
- 教師あり学習(人間のプロ棋士の棋譜で学習)+強化学習(自己対戦で強化)+モンテカルロ木探索を組み合わせた
- CNNで盤面を評価するネットワークと、次の手を予測するネットワークを使用
AlphaGo Zero(2017年)
- 人間の棋譜を一切使わず、自己対戦のみで学習
- AlphaGoを100戦100勝で上回った
- 人間の知識に頼らなくても、AIが超人的な能力を獲得できることを示した画期的な成果
AlphaZero(2017年)
- AlphaGo Zeroの仕組みを囲碁以外のゲーム(チェス・将棋)にも汎化
- 各ゲームで既存の最強AIを上回る性能を達成
- 「1つのアルゴリズムで複数のゲームに対応できる」汎用性を示した
試験での頻出ポイント: 「AlphaGoは人間のデータを使った」「AlphaGo Zeroは人間のデータを使わなかった」この違いは非常によく出題されます。
マルチエージェント強化学習
新シラバスで注目度が上がっているのがマルチエージェント強化学習です。1つのエージェントではなく、複数のエージェントが同時に学習する仕組みです。
G検定で押さえるべき応用例
- OpenAI Five: Dota 2というチーム対戦ゲームで、5体のAIエージェントが協調プレイ。PPOベースで学習
- AlphaStar: StarCraft IIでグランドマスターレベルを達成
協調型(チームで同じ報酬を共有)と対戦型(相手に勝つことが報酬)の2パターンがあることを覚えておきましょう。
文系の私がやった強化学習の勉強法
正直に言うと、強化学習は数式を追い始めるとドツボにハマります。文系の方におすすめの勉強法は以下の通りです。
- まずストーリーで全体像を掴む: Q学習→DQN→方策勾配法→AlphaGoという「進化の流れ」を理解する
- 各手法の「何が新しいか」を押さえる: DQNは「テーブルの代わりにニューラルネット」、AlphaGo Zeroは「人間のデータ不要」など
- 比較表を作る: 似た手法の違いを表にまとめると記憶に定着しやすい
- 数式は深追いしない: G検定では数式そのものは出ません。仕組みと特徴を理解していればOK
まとめ
強化学習のG検定対策で押さえるべきポイントを振り返ります。
- 強化学習の基本構造(エージェント・環境・状態・行動・報酬・方策)
- Q学習の仕組みとε-greedy法
- DQNの2大テクニック(Experience Replay、Target Network)
- 価値ベースと方策勾配法の違い
- AlphaGo → AlphaGo Zero → AlphaZeroの進化の流れ
- マルチエージェント強化学習の代表例(OpenAI Five、AlphaStar)
強化学習は範囲が広くて大変ですが、ストーリーの流れを意識すると格段に理解しやすくなります。この記事が皆さんの勉強の助けになれば嬉しいです。
おすすめの学習リソース
強化学習を含むG検定の各分野を体系的に学ぶなら、G検定対策サイト(AI検定ナビ) が分野別の解説や模擬問題が充実していておすすめです。
※この記事はJDLA非公式の個人的な体験記です。試験の最新情報はJDLA公式サイトでご確認ください。