[Statistics] 統計モデリング_重回帰分析

Last updated at 2026-04-27Posted at 2026-04-22

基本単語

複数の説明変数によって目的変数を線形的に説明・予測するモデル

Y_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_p X_{ip} + \varepsilon_i

\hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \boldsymbol{Y}

R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}

・$Y_i$：目的変数（予測したい値）
・$X_{ij}$：$i$番目データの$j$番目説明変数
・$\beta_j$：説明変数の影響度（傾き）
・$\varepsilon_i$：モデルで説明できない誤差

本質：
「説明変数は固定されたデータ」として扱い、その上で
👉 回帰係数 $\beta$ を動かして最も当てはまる直線（超平面）を探す

・最小二乗法では
👉 「残差の2乗の合計」を最小にする

\sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \rightarrow 最小

・幾何的には
👉 $Y$ を「説明変数空間に射影」している

・行列表現が重要（試験頻出）
・正規方程式：$(X^T X)\hat{\beta} = X^T Y$
・$X^T X$ が正則である必要（多重共線性に注意）
・誤差は通常

\varepsilon_i \sim N(0, \sigma^2)

を仮定

・推定量の性質（ガウス＝マルコフ定理）
👉 最小分散不偏推定量（BLUE）

・決定係数は
👉 「全変動のうちどれだけ説明できたか」

・自由度調整済み決定係数

\bar{R}^2 = 1 - \frac{RSS/(n-p-1)}{TSS/(n-1)}

・t検定（各係数の有意性）
・F検定（モデル全体の有意性）

【間違えやすい点】

・相関 ≠ 因果
・多重共線性があると係数が不安定
・外挿（データ範囲外の予測）は危険
・$R^2$が高くても良いモデルとは限らない

・単回帰分析
👉 説明変数が1つの特別なケース

・最尤法
👉 正規誤差を仮定すると最小二乗法と一致

・分散分析（ANOVA）
👉 回帰モデルは分散分解で理解可能

TSS = ESS + RSS

・主成分分析
👉 多重共線性対策として利用される

・一般化線形モデル（GLM）
👉 重回帰の拡張（非正規分布対応）

重回帰分析の本質：
👉 「データに最もよく当てはまる線形モデルを構築する」こと