【G検定対策】教師あり学習・教師なし学習・強化学習をやさしく整理してみる

Posted at 2026-03-17

はじめに

今回は、G検定でもかなり重要な「機械学習の学習スタイル3兄弟」をまとめます。

具体的には、教師あり学習、教師なし学習、強化学習 の3つです。
名前だけ見るとちょっと堅そうですが、ここは落ち着いて大丈夫です。
イメージとしては、

正解を見ながら学ぶのが教師あり学習
正解なしでパターンを見つけるのが教師なし学習
試行錯誤しながら報酬で学ぶのが強化学習

という整理でまずはOKです。

本記事は、翔泳社発行の『ディープラーニングG検定公式テキスト』で押さえたい機械学習の整理を、初学者向けにかみ砕いてまとめた復習用ノートとして書いています。

今回のトピック

教師あり学習

線形回帰
ロジスティック回帰
ランダムフォレスト
ブースティング
サポートベクターマシン
自己回帰モデル

教師なし学習

階層なしクラスタリング
階層ありクラスタリング
主成分分析
協調フィルタリング
トピックモデル

強化学習

理論概要
バンディットアルゴリズム
マルコフ決定過程モデル
価値関数
方策勾配

まずは全体像

3つの違いは、ざっくり次のように見るとかなり分かりやすいです。

学習の種類	何を頼りに学ぶ？	何が得意？
教師あり学習	正解ラベル	予測・分類
教師なし学習	データの構造そのもの	グループ分け・特徴抽出
強化学習	報酬	行動の最適化

学校にたとえるなら、

教師あり学習は「答え付きドリル」
教師なし学習は「答えはないけど、似ているものを自分で整理する自由研究」
強化学習は「クリアできたらポイントが入るゲーム」

みたいな感じです。

教師あり学習

教師あり学習は、入力 と 正解 のセットを使って学ぶ方法です。
「このデータが来たら、こう答えると正しいよ」を繰り返し覚えていきます。

たとえば、

過去の住宅データから家賃を予測する
メール本文からスパムかどうかを分類する
顧客データから解約しそうかを予測する

といったタスクでよく使われます。

線形回帰

線形回帰は、連続した数値を予測する ときの基本モデルです。
たとえば「部屋が広いほど家賃は上がりやすい」「広告費が増えるほど売上も増えやすい」といった関係を、できるだけ1本の直線で表そうとします。

すごく雑にいうと、点がたくさん散らばっているグラフに対して、「いちばんそれっぽい線を引く」イメージです。

いまのAIでどう使われる？

需要予測や売上予測のベースラインとして今でもよく使われます。
深層学習のような重いモデルを使う前に、「まず線形回帰でどこまで行けるか」を確認する場面はかなりあります。
解釈しやすいので、ビジネスの説明資料でも強いです。

ロジスティック回帰

ロジスティック回帰は名前に「回帰」と付いていますが、得意なのは 分類 です。
「合格 / 不合格」「買う / 買わない」「正常 / 異常」みたいに、どちらのグループに入るかを予測します。

線形回帰がそのままでは0から1の範囲に収まりにくいので、ロジスティック回帰では結果を確率っぽく扱える形に変換します。
つまり「このメールがスパムである確率は 87% です」のように出せるわけです。

いまのAIでどう使われる？

スパム判定、離職予測、不正検知の入口モデルとして定番です。
出力が確率で解釈しやすいので、AIの判断理由を説明したい場面で使いやすいです。
大規模言語モデルの時代でも、表データの分類ではまだまだ現役です。

ランダムフォレスト

ランダムフォレストは、決定木をたくさん作って多数決を取る モデルです。
1本の木だけだと偏った判断をしやすいのですが、たくさんの木で相談すると安定しやすくなります。

「1人の詳しい人に全部任せる」より、「少しずつ違う視点を持った専門家を何人も集めて多数決する」イメージです。
会議室は増えますが、そのぶん暴走しにくくなります。

いまのAIでどう使われる？

表形式データでは非常に強く、金融・医療・マーケティングでもよく使われます。
どの特徴量が効いたかを確認しやすく、説明可能性の観点でも便利です。
ディープラーニングより前処理が軽く済むことも多く、実務ではかなり現実的な選択肢です。

ブースティング

ブースティングは、前のモデルが間違えたところを次のモデルが重点的に学ぶ 方法です。
ランダムフォレストが「みんなで並列に考える」タイプだとすると、ブースティングは「前の人のミスを次の人が拾うリレー」に近いです。

この考え方から、XGBoost や LightGBM のような強力な手法が生まれました。

いまのAIでどう使われる？

表データの予測コンペでは今でも非常に強いです。
売上予測、与信判断、不正検知、順位付けなど幅広い領域で使われます。
「LLMはすごいけど、表データの精度勝負なら結局 LightGBM が強い」という場面は普通にあります。

サポートベクターマシン

サポートベクターマシン（SVM）は、クラス同士の境界線をできるだけきれいに引く ことを目指す手法です。
ポイントは、ただ分けるだけでなく、境界から両側のデータまでの余白が最大になるようにする ところです。

この「余白をしっかり取る」という考え方のおかげで、未知のデータにも比較的強くなります。

いまのAIでどう使われる？

データ量がそこまで多くない分類問題で今も使われます。
テキスト分類、画像の二値分類、バイオ系データなどで活躍することがあります。
カーネル法を使うと複雑な境界も扱えますが、そのぶん直感的には少し難しめです。

自己回帰モデル

自己回帰モデルは、過去の値を使って次の値を予測する モデルです。
たとえば「昨日までの売上から明日の売上を予測する」「これまでの気温から次の気温を予測する」といった時系列データで使われます。

つまり、「未来を予想する材料は、とりあえず過去の自分が持っている」という考え方です。

いまのAIでどう使われる？

需要予測や在庫予測などの時系列分析で使われます。
文章生成の世界でも「直前までの単語から次の単語を予測する」という自己回帰的な考え方が重要です。
GPT 系の言語モデルも、大きな意味では「次のトークンを順番に予測する」自己回帰型モデルとして理解できます。

教師なし学習

教師なし学習は、正解ラベルがないデータ を扱います。
つまり「これは正しい答えです」が最初から与えられない中で、データのまとまりや隠れた構造を探していきます。

教師あり学習が答え付き問題集だとしたら、教師なし学習は「山ほどあるファイルを見て、自分で分類ルールを見つける作業」に近いです。

階層なしクラスタリング

階層なしクラスタリングは、データを いくつかのグループに分ける 手法です。
代表例は k-means 法で、似ているデータ同士を同じクラスタにまとめます。

ここでのポイントは、「このデータは何グループに分かれそうか」を人がある程度決めてから分けることが多い点です。

いまのAIでどう使われる？

顧客セグメント分けによく使われます。
画像特徴量や文章埋め込みをクラスタリングして、似たコンテンツを整理する用途でも使われます。
推薦システムの前処理や異常データの発見にも役立ちます。

階層ありクラスタリング

階層ありクラスタリングは、似たものを段階的にまとめていく 手法です。
「この2つは近い」「このグループ同士も実は近い」と、木構造のようにまとめていけます。

そのため、「ざっくり大分類」と「細かい小分類」の両方を見たいときに便利です。

いまのAIでどう使われる？

文書の分類、遺伝子データの分析、商品カテゴリの整理などで使われます。
データの関係を樹形図で見られるので、探索的分析に向いています。
最初に全体のまとまりを把握したいときの観察ツールとして優秀です。

主成分分析

主成分分析（PCA）は、情報をなるべく残したまま次元を減らす 手法です。
たくさん特徴量があると理解もしづらいし計算も重くなります。そこで、「大事な情報をよく表す軸」を見つけて、データを整理し直します。

引っ越しで例えるなら、荷物を全部そのまま持つのではなく、「必要なものをなるべく残してコンパクトにまとめる」感じです。

いまのAIでどう使われる？

高次元データの可視化や前処理で使われます。
ノイズ除去や特徴圧縮の手段として有効です。
埋め込みベクトルの様子をざっくり眺めるときにも役立ちます。

協調フィルタリング

協調フィルタリングは、似た好みの人や似た商品を手がかりにおすすめを出す 手法です。
「あなたと似た人が好きだった作品をおすすめする」という、レコメンドの王道パターンです。

いまのAIでどう使われる？

ECサイト、動画配信、音楽配信などの推薦システムで広く使われています。
最近は深層学習ベースの推薦モデルと組み合わせたハイブリッド型も多いです。
ユーザー履歴が多いサービスでは、今でもかなり実用的です。

トピックモデル

トピックモデルは、文書の中にどんな話題が潜んでいるかを見つける 手法です。
たとえば大量の記事を解析して、「この文書はスポーツ寄り」「これは政治寄り」「これは技術寄り」といった隠れたテーマを推定します。

代表例としては LDA などがあります。

いまのAIでどう使われる？

文書の自動整理やニュース分析で使われます。
大量の社内文書や論文群をざっくり分類したいときに便利です。
生成AI時代でも、RAG 用データ群の性質把握やコーパス分析で役立つ考え方です。

強化学習

強化学習は、行動した結果として報酬を受け取り、よりよい行動を学ぶ 方法です。
教師あり学習のように毎回「この答えが正解です」と教えてもらえるわけではありません。

その代わり、

ある行動をした
結果として報酬が増えた / 減った
じゃあ次はどう動くべきかを学ぶ

という流れで、試行錯誤しながら賢くなっていきます。

ゲームAIを思い浮かべると分かりやすいです。
最初は下手でも、何度も挑戦して「この動きは得だった」「これは損だった」を学んでいきます。

理論概要

強化学習では、主に次の登場人物が出てきます。

エージェント: 行動する側
環境: エージェントが動く相手側の世界
状態: いまどんな状況か
行動: 次に何をするか
報酬: その行動がどれだけ良かったか

目標は、目先の1回の報酬ではなく、長い目で見て合計報酬を最大化すること です。

いまのAIでどう使われる？

ゲームAI、ロボット制御、在庫最適化、広告配信などで使われます。
生成AIの文脈では RLHF のように、人の好みに合わせてモデルを調整する考え方にもつながっています。

バンディットアルゴリズム

バンディットアルゴリズムは、いくつかの選択肢の中で、どれを選ぶと得かを学ぶ 問題です。
名前の由来はスロットマシンです。どの台が当たりやすいか分からない中で、試しつつ、でも当たりそうな台も活用しないといけません。

ここで重要になるのが、

探索: まだ分からない選択肢も試す
活用: 良さそうな選択肢を多く使う

のバランスです。

いまのAIでどう使われる？

広告の出し分け
おすすめ記事の出し分け
A/Bテストの効率化

など、1回ごとの意思決定が重要な場面でよく使われます。

マルコフ決定過程モデル

マルコフ決定過程（MDP）は、強化学習を数理的に整理するための基本モデルです。
「いまの状態で、ある行動を取ると、次の状態へどのくらいの確率で移り、そのときどんな報酬が得られるか」を表します。

少し難しそうに見えますが、要は「行動の連続をちゃんとモデル化しよう」という話です。

いまのAIでどう使われる？

ロボットの移動
ゲームの戦略学習
自動運転や制御問題

など、連続した意思決定を扱うAIの土台として使われます。

価値関数

価値関数は、その状態や行動が将来的にどれくらい得か を表すものです。
いま目の前の報酬が小さくても、あとで大きな報酬につながるなら価値は高い、と考えます。

つまり、強化学習における価値関数は「今すぐ100円」より「あとで1000円になるルート」を見抜くための物差しです。

いまのAIでどう使われる？

Q学習や DQN などのアルゴリズムで中心的に使われます。
長期的に得な行動を選ぶための判断材料になります。
強化学習を理解するときの超重要キーワードです。

方策勾配

方策勾配は、どの行動を取りやすくするかという方策そのものを直接改善する 方法です。
価値を経由して間接的に学ぶのではなく、「この行動の出し方をもっとよくしよう」と方策を直接更新していきます。

特に、行動の選択肢が連続的だったり複雑だったりする場面で有効です。

いまのAIでどう使われる？

ロボット制御のように繊細な行動が必要なタスクで使われます。
PPO など、現代的な強化学習アルゴリズムの理解にもつながります。
生成AIの調整でも、方策勾配系の考え方はかなり重要です。

いまのAI全体で見るとどうつながる？

ここまでの話をまとめると、現代のAIは1つの学習法だけでできているわけではありません。

教師あり学習は、予測や分類の基本を支える
教師なし学習は、データの構造理解や推薦、前処理に効く
強化学習は、行動を最適化したい場面で力を発揮する

という感じで、それぞれ役割が違います。

最近は生成AIが話題の中心ですが、実務全体を見ると、

売上予測や離脱予測は教師あり学習
レコメンドや文書整理は教師なし学習
モデルの振る舞い調整は強化学習

のように、昔からある機械学習の考え方が今も普通に使われています。

まとめ

教師あり学習は「正解を見ながら学ぶ」、教師なし学習は「データの中の構造を見つける」、強化学習は「報酬を頼りに行動を学ぶ」方法です。
それぞれ得意な仕事が違うので、区別して理解するとG検定の整理がかなり楽になります。
派手な生成AIの裏側でも、こうした基本の考え方はしっかり生きています。
まずは「何を手がかりに学ぶ方式なのか」をセットで覚えるのがおすすめです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up