【文系合格者が解説】G検定の強化学習を完全攻略｜Q学習・DQN・AlphaGoまで一気にわかる

Posted at 2026-04-26

はじめに

こんにちは。2026年1月のG検定に合格した、文系出身のエンジニアです。

G検定の勉強をしていて、「強化学習」の分野で頭がパンクしそうになった経験はありませんか？Q学習、DQN、方策勾配法、AlphaGo……。似た用語が次々と出てきて、「結局どれがどれ？」と混乱する方も多いと思います。

私も最初はまったく同じ状態でした。でも、強化学習はストーリーとして流れを掴むと一気に理解が進みます。この記事では、G検定に出る強化学習の重要トピックを「つながり」を意識しながら整理していきます。

そもそも強化学習とは？

強化学習を一言でいうと、**「試行錯誤しながら、もらえるご褒美が最大になる行動を学ぶ仕組み」**です。

教師あり学習が「正解を教えてもらって学ぶ」のに対し、強化学習は「とりあえずやってみて、結果が良ければその行動を繰り返す」という学び方をします。ゲームのプレイヤーが、何度もやり直しながら上手くなっていくイメージです。

G検定で押さえるべき基本用語はこちらです。

用語	意味	イメージ
エージェント	行動する主体	ゲームのプレイヤー
環境	エージェントが行動する世界	ゲームのステージ
状態（State）	今どんな状況か	プレイヤーの現在位置
行動（Action）	エージェントが取る選択	上下左右に動く
報酬（Reward）	行動の結果もらえるスコア	コインを拾う＝+1点
方策（Policy）	どの状態でどう行動するかのルール	攻略法・戦略

Q学習：強化学習の基本

Q学習は、「この状態でこの行動をとったら、将来どれくらい報酬がもらえそうか」をQ値という数値で表にまとめる手法です。

たとえば迷路ゲームなら、各マスで「右に行ったときのQ値」「左に行ったときのQ値」をテーブルに記録し、Q値が一番高い行動を選べばゴールに辿り着ける、というわけです。

G検定での出題ポイント

Q学習は価値ベースの手法（行動の価値を数値化して判断する）
ε-greedy法: 基本はQ値が高い行動を選ぶが、一定確率でランダムな行動を試す。探索（新しい行動を試す）と活用（良い行動を繰り返す）のバランスをとる仕組み

DQN：ディープラーニング×強化学習

Q学習には弱点があります。状態の数が増えると、テーブルが巨大になりすぎて管理しきれなくなるのです。囲碁の盤面パターンは約10の170乗通り。テーブルに書き切るのは不可能ですよね。

そこで登場したのがDQN（Deep Q-Network）です。Q値のテーブルの代わりにニューラルネットワークを使ってQ値を近似（予測）します。

DQNの画期的な点は、2015年にDeepMindが発表した論文で、Atariの49種類のゲームをプレイさせ、人間のスコアを上回る成績を達成したことです。ゲーム画面の画像（ピクセル情報）を入力として、最適な操作を学習しました。

DQNの重要テクニック（G検定頻出）

テクニック	内容	何が嬉しいか
Experience Replay	過去の経験をメモリに溜めてランダムに学習	データの偏りを防いで安定した学習ができる
Target Network	Q値の更新に使うネットワークを一定期間固定	学習が振動するのを防いで安定させる

方策勾配法：もう一つのアプローチ

DQNは「行動の価値」を学ぶ方法でしたが、方策勾配法は「行動の選び方（方策）そのもの」を直接学びます。

イメージでいうと、DQNが「各行動に点数をつけて、一番高い点数の行動を選ぶ」のに対し、方策勾配法は「良い結果が出た行動の選択確率を上げる」という考え方です。

G検定での出題ポイント

REINFORCE: 方策勾配法の基本アルゴリズム。報酬が高かった行動の確率を上げるシンプルな仕組み
Actor-Critic: 方策（Actor）と価値関数（Critic）の2つのネットワークを組み合わせた手法。REINFORCEより安定した学習が可能
PPO（Proximal Policy Optimization）: 方策の更新幅を制限して安定性を高めた手法。ChatGPTなどのLLMのファインチューニング（RLHF）でも使われている

価値ベース vs 方策勾配：ざっくり比較

	価値ベース（Q学習・DQN）	方策勾配法
学ぶもの	行動の価値（Q値）	行動の選び方（方策）
代表手法	Q学習、DQN	REINFORCE、PPO
得意な場面	行動の選択肢が少ない	行動が連続的・複雑
弱点	連続行動空間に弱い	学習が不安定になりやすい

AlphaGo → AlphaGo Zero → AlphaZero

G検定で強化学習といえば、AlphaGoの系譜は避けて通れません。ここは進化の流れをストーリーで掴みましょう。

AlphaGo（2016年）

DeepMindが開発し、プロ棋士イ・セドルに4勝1敗で勝利
教師あり学習（人間のプロ棋士の棋譜で学習）＋強化学習（自己対戦で強化）＋モンテカルロ木探索を組み合わせた
CNNで盤面を評価するネットワークと、次の手を予測するネットワークを使用

AlphaGo Zero（2017年）

人間の棋譜を一切使わず、自己対戦のみで学習
AlphaGoを100戦100勝で上回った
人間の知識に頼らなくても、AIが超人的な能力を獲得できることを示した画期的な成果

AlphaZero（2017年）

AlphaGo Zeroの仕組みを囲碁以外のゲーム（チェス・将棋）にも汎化
各ゲームで既存の最強AIを上回る性能を達成
「1つのアルゴリズムで複数のゲームに対応できる」汎用性を示した

試験での頻出ポイント: 「AlphaGoは人間のデータを使った」「AlphaGo Zeroは人間のデータを使わなかった」この違いは非常によく出題されます。

マルチエージェント強化学習

新シラバスで注目度が上がっているのがマルチエージェント強化学習です。1つのエージェントではなく、複数のエージェントが同時に学習する仕組みです。

G検定で押さえるべき応用例

OpenAI Five: Dota 2というチーム対戦ゲームで、5体のAIエージェントが協調プレイ。PPOベースで学習
AlphaStar: StarCraft IIでグランドマスターレベルを達成

協調型（チームで同じ報酬を共有）と対戦型（相手に勝つことが報酬）の2パターンがあることを覚えておきましょう。

文系の私がやった強化学習の勉強法

正直に言うと、強化学習は数式を追い始めるとドツボにハマります。文系の方におすすめの勉強法は以下の通りです。

まずストーリーで全体像を掴む: Q学習→DQN→方策勾配法→AlphaGoという「進化の流れ」を理解する
各手法の「何が新しいか」を押さえる: DQNは「テーブルの代わりにニューラルネット」、AlphaGo Zeroは「人間のデータ不要」など
比較表を作る: 似た手法の違いを表にまとめると記憶に定着しやすい
数式は深追いしない: G検定では数式そのものは出ません。仕組みと特徴を理解していればOK

まとめ

強化学習のG検定対策で押さえるべきポイントを振り返ります。

強化学習の基本構造（エージェント・環境・状態・行動・報酬・方策）
Q学習の仕組みとε-greedy法
DQNの2大テクニック（Experience Replay、Target Network）
価値ベースと方策勾配法の違い
AlphaGo → AlphaGo Zero → AlphaZeroの進化の流れ
マルチエージェント強化学習の代表例（OpenAI Five、AlphaStar）

強化学習は範囲が広くて大変ですが、ストーリーの流れを意識すると格段に理解しやすくなります。この記事が皆さんの勉強の助けになれば嬉しいです。