はじめに
機械学習の基本である「教師あり学習」。その中でも、数値を予測する 「回帰問題」 は、ビジネスの現場で最も使われる手法の一つです。
今回は、基本の線形回帰から、高度な時系列予測(AR/VAR)まで、4つの重要モデルを 「進化のストーリー」 で解説します。
1. 線形回帰 (Linear Regression)
「たった一つのヒントから答えを導く」
すべての回帰の出発点です。2つのデータの関係を「1本の直線」で表します。
- どんな時に使う?: 原因(説明変数)が1つ、結果(目的変数)が1つの時。
- 具体例: 「部屋の広さ」 だけを見て、「家賃」 を予測する。
-
ここがポイント!:
- データを一番うまく表す直線を引くために、誤差の2乗の合計を最小にする手法 「最小二乗法」 を使います。
2. 重回帰分析 (Multiple Regression Analysis)
「複数のヒントを組み合わせて、現実に近づく」
線形回帰をパワーアップさせたものです。現実の世界では、1つの原因だけで結果が決まることは少ないため、複数のヒントを使います。
- どんな時に使う?: 複数の原因を考慮して、より正確に予測したい時。
- 具体例: 「部屋の広さ」+「築年数」+「駅からの距離」 の3つのヒントから、「家賃」 を予測する。
-
ここがポイント!:
- 多重共線性(マルチコ): ヒントの中に、似すぎているもの(例:「畳数」と「平方メートル」)が混ざっていると、計算が不安定になる現象です。これに注意する必要があります。
3. 自己回帰モデル (ARモデル)
「過去の自分をヒントにする時系列の基本」
ここからは 「時系列データ」 の世界です。外にヒントを探すのではなく、「自分の過去」に注目します。
- どんな時に使う?: 時間の経過とともに変化する数値(株価、気温など)を予測する時。
- 具体例: 「昨日の気温」 から 「今日の気温」 を予測する。
-
ここがポイント!:
- 過去の自分の値(自己)に回帰するため「自己回帰」と呼ばれます。「時系列データ専用」 という点をしっかり押さえましょう。
4. ベクトル自己回帰モデル (VARモデル)
「自分と仲間の過去から、チーム全体の未来を予測」
ARモデルを「チーム戦」にした応用手法です。複数のデータが互いに影響し合っていると考えます。
- どんな時に使う?: 関連し合う複数の時系列データをまとめて予測したい時。
- 具体例: 「昨日の気温」と「昨日のアイスの売上」 という2つの過去データを使って、「今日の気温」と「今日のアイスの売上」 の両方を予測する。
-
ここがポイント!:
- 多変数時系列: 複数の変数(ベクトル)をセットで扱うのが特徴です。「気温が上がれば売上も上がる」といった相互影響を捉えられます。
まとめ
最後に、混同しないための比較表です。
| モデル名 | 特徴 | ヒントの数 | データ形式 |
|---|---|---|---|
| 線形回帰 | 1対1の直線 | 1つ | 静止データ |
| 重回帰分析 | 多対1の予測 | 複数 | 静止データ |
| ARモデル | 過去の自分 → 未来 | 1つ(自分) | 時系列 |
| VARモデル | 過去のチーム → 未来 | 複数(チーム) | 時系列 |
「回帰は数値を当てること」「AR/VARは時系列であること」を意識する。
学習に利用している書籍
公式教科書ということでとりあえず購入しました。読んでみて、わかりやすいとは程遠いなというのが正直な感想です。
とはいえ、ここに記載されているのが基本になると思うので、それを知るために一読は良いと思います。
各セクションごとに問題が用意されていて、最後に模擬試験的な形式での問題が用意されています。
解説もわかりやすいですし、これを繰り返し行って学習しようと思います。



