基本単語
- 重回帰分析: 複数の説明変数を用いて目的変数を線形結合で説明する統計手法
- 目的変数(従属変数): 予測・説明したい変数 $Y$
- 説明変数(独立変数): $Y$ を説明するために用いる変数 $X_1, X_2, \dots, X_p$
- 回帰係数: 各説明変数が目的変数に与える影響の大きさ $\beta_j$
- 誤差項: モデルで説明できないばらつき $\varepsilon$
- 最小二乗法: 残差平方和を最小にすることで回帰係数を推定する方法
- 残差: 観測値と予測値の差 $e_i = y_i - \hat{y}_i$
- 決定係数: モデルの当てはまりの良さを示す指標 $R^2$
重回帰分析(Multiple Regression Analysis)
複数の説明変数によって目的変数を線形的に説明・予測するモデル
| 概念 | 入力 | 出力 | 意味 |
|---|---|---|---|
| 重回帰モデル | 説明変数 $X$ | 目的変数の予測値 $\hat{Y}$ | 線形関係で予測 |
| 最小二乗法 | データ $(X,Y)$ | 回帰係数 $\hat{\beta}$ | 誤差を最小化 |
| 決定係数 | 実測値と予測値 | $R^2$ | 当てはまりの良さ |
数式表現
Y_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_p X_{ip} + \varepsilon_i
\hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \boldsymbol{Y}
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
意味(直感的理解)
・$Y_i$:目的変数(予測したい値)
・$X_{ij}$:$i$番目データの$j$番目説明変数
・$\beta_j$:説明変数の影響度(傾き)
・$\varepsilon_i$:モデルで説明できない誤差
本質:
「説明変数は固定されたデータ」として扱い、その上で
👉 回帰係数 $\beta$ を動かして最も当てはまる直線(超平面)を探す
・最小二乗法では
👉 「残差の2乗の合計」を最小にする
\sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \rightarrow 最小
・幾何的には
👉 $Y$ を「説明変数空間に射影」している
ポイント
・行列表現が重要(試験頻出)
・正規方程式:$(X^T X)\hat{\beta} = X^T Y$
・$X^T X$ が正則である必要(多重共線性に注意)
・誤差は通常
\varepsilon_i \sim N(0, \sigma^2)
を仮定
・推定量の性質(ガウス=マルコフ定理)
👉 最小分散不偏推定量(BLUE)
・決定係数は
👉 「全変動のうちどれだけ説明できたか」
・自由度調整済み決定係数
\bar{R}^2 = 1 - \frac{RSS/(n-p-1)}{TSS/(n-1)}
・t検定(各係数の有意性)
・F検定(モデル全体の有意性)
【間違えやすい点】
・相関 ≠ 因果
・多重共線性があると係数が不安定
・外挿(データ範囲外の予測)は危険
・$R^2$が高くても良いモデルとは限らない
他概念との関係
・単回帰分析
👉 説明変数が1つの特別なケース
・最尤法
👉 正規誤差を仮定すると最小二乗法と一致
・分散分析(ANOVA)
👉 回帰モデルは分散分解で理解可能
TSS = ESS + RSS
・主成分分析
👉 多重共線性対策として利用される
・一般化線形モデル(GLM)
👉 重回帰の拡張(非正規分布対応)
まとめ
重回帰分析の本質:
👉 「データに最もよく当てはまる線形モデルを構築する」こと
| 観点 | 内容 |
|---|---|
| モデル | 線形結合 |
| 推定 | 最小二乗法 |
| 仮定 | 誤差の独立・正規性 |
| 幾何 | 射影 |
| 注意点 | 多重共線性・過学習 |