はじめに
G検定の学習を始めると、最初にぶつかる壁が大量の用語です。
特に「教師あり学習」には多くの手法がありますが、まずは 「何を解きたいのか?」 という目的(タスク)で整理すると、脳内のフォルダ分けがスムーズになります。
今回は、教師あり学習の2大タスクである 「回帰問題」 と 「分類問題」 について、まとめました。
1. 教師あり学習とは
データと「正解(ラベル)」をセットで学習させる手法です。
「この特徴を持つデータなら、正解はこれだよ」というパターンをモデルに覚えさせ、未知のデータに対して予測を行います。
2. 回帰問題 (Regression)
「連続した数値」 を予測する問題です。
- 予測するもの: 数値(量)
-
具体例:
- 明日の最高気温の予測
- 中古車の販売価格の推定
- 来月の売上予測
-
代表的な手法:
- 線形回帰(重回帰分析)
- 自己回帰モデル(AR / VAR)
イメージ: 散らばったデータに対して、最もそれらしい「1本の線」を引く作業です。
3. 分類問題 (Classification)
データを、あらかじめ決められた 「カテゴリ(グループ)」 に振り分ける問題です。
- 予測するもの: カテゴリ(種類・ラベル)
-
具体例:
- メールが「スパム」か「通常」かの判定
- 画像の動物が「犬」か「猫」かの判定
-
代表的な手法:
- ロジスティック回帰
- サポートベクターマシン (SVM)
- 決定木
多クラス分類について
分類問題は、さらに以下の2つに分けられます。
- 二値分類: 「Yes / No」や「合格 / 不合格」のような2択。
-
多クラス分類: 「A / B / C / D」や「犬 / 猫 / 鳥」など、3つ以上の選択肢から1つを選ぶ。
※ 多クラス分類は「分類問題」のバリエーションの一つです。
4. 比較まとめ表
| 項目 | 回帰問題 | 分類問題 |
|---|---|---|
| 予測対象 | 連続した数値(150.5, 2000など) | カテゴリ・種類(犬, 猫, 合格など) |
| 出力形式 | 数値 | 離散的なラベル |
| 例えるなら | 「いくら?」「どのくらい?」 | 「どっち?」「どのグループ?」 |
5. ポイント
-
ロジスティック回帰は「分類」
名前に「回帰」と付いていますが、実際にはある事象が起こる確率を計算してカテゴリ分けを行う分類の手法です。試験での超頻出ポイントです。 -
手法の汎用性
SVMや決定木、ランダムフォレストなどは、設定次第で「分類」にも「回帰」にも使えます。 -
時系列データは回帰
ARモデル(自己回帰モデル)などは、過去の数値から未来の数値を予測するため、回帰の仲間として整理されます。
おわりに
「数値を当てるなら回帰」「種類を分けるなら分類」。
この基本を軸にするだけで、次に学ぶ「アンサンブル学習」や「評価指標(正解率やMSEなど)」の理解度がグッと高まります!
学習に利用している書籍



