基本単語
- 質的回帰(Qualitative Regression): 応答変数がカテゴリやカウントなどの非連続値の場合に、その分布に応じて確率モデルとして回帰する手法
- ロジスティック回帰: 2値データに対してロジット関数を用いる回帰モデル
- プロビット回帰: 正規分布の累積分布関数(CDF)をリンク関数として用いる回帰モデル
- ポアソン回帰: カウントデータに対してポアソン分布を仮定する回帰モデル
- 一般化線形モデル(GLM): 応答変数の分布とリンク関数を組み合わせて回帰を行う統一的枠組み
- リンク関数(link function): 応答変数の期待値と線形予測子を結びつける関数
- 線形予測子(linear predictor): 説明変数の線形結合
\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p
- 最尤推定: 尤度関数を最大にするパラメータ推定法
L(\theta)=\prod_{i=1}^{n} f(y_i \mid x_i, \theta)
質的回帰(Qualitative Regression / Generalized Linear Models)
非連続な応答変数を、その分布に応じた確率モデルで回帰する統一的手法
| 概念 | 入力 | 出力 | 意味 |
|---|---|---|---|
| ロジスティック回帰 | $x$ | 確率 $P(Y=1\mid x)$ | 2値データの確率モデル |
| プロビット回帰 | $x$ | 確率 | 正規CDFで確率を表現 |
| ポアソン回帰 | $x$ | 平均 $\lambda$ | カウントデータの平均 |
| GLM | $x$ | $E[Y | x]$ |
数式表現
一般化線形モデル(GLM)
g(\mu_i) = \eta_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}
\mu_i = E[Y_i \mid x_i]
ロジスティック回帰
P(Y=1 \mid x)=\frac{1}{1+\exp(-\eta)}
\log \frac{p}{1-p} = \eta
プロビット回帰
P(Y=1 \mid x)=\Phi(\eta)
($\Phi$ は標準正規分布のCDF)
ポアソン回帰
Y_i \sim \text{Poisson}(\lambda_i)
\log \lambda_i = \eta_i
尤度(例:ロジスティック回帰)
L(\beta)
=\prod_{i=1}^{n}
p_i^{y_i}(1-p_i)^{1-y_i}
意味
・従来の線形回帰は「連続値+正規分布」を前提
・現実には
- 成功/失敗(2値)
- 回数(カウント)
などが多い
→ 分布に応じた回帰が必要
GLMの考え方:
- 応答変数の分布を決める(ベルヌーイ、ポアソンなど)
- 平均 $\mu$ を考える
- リンク関数で線形化
・固定:データ $(x_i, y_i)$
・変化:パラメータ $\beta$
→ 最尤推定で求める
ポイント
GLMの3要素(最重要)
- 確率分布(指数型分布族)
- 線形予測子 $\eta$
- リンク関数 $g$
ロジスティック vs プロビット
- どちらも2値モデル
- ロジット:解釈しやすい(オッズ比)
- プロビット:正規分布に基づく
ポアソン回帰の特徴
- 非負整数データ
- 分散 = 平均(重要な仮定)
過分散の問題
- Var > Mean の場合 → 負の二項回帰などへ拡張
推定方法
- 正規方程式は使えない
- ニュートン法・反復再重み付け最小二乗法(IRLS)
他概念との関係
線形回帰
- 正規分布 + 恒等リンク
- GLMの特別な場合
判別分析
- 分布仮定が強い(正規)
- ロジスティック回帰はより柔軟
指数型分布族
- GLMの理論的基盤
- ベルヌーイ・ポアソン・正規など
過分散モデル
- ポアソン回帰の拡張(負の二項など)
まとめ
- 分布 + リンク関数 により非連続データを回帰する統一理論
| モデル | 分布 | リンク関数 | 用途 |
|---|---|---|---|
| ロジスティック回帰 | ベルヌーイ | ロジット | 2値分類 |
| プロビット回帰 | ベルヌーイ | 正規CDF | 2値分類 |
| ポアソン回帰 | ポアソン | 対数 | カウント |
| 線形回帰 | 正規 | 恒等 | 連続値 |