[Statistics] 統計モデリング_質的回帰

Posted at 2026-04-27

基本単語

質的回帰（Qualitative Regression）: 応答変数がカテゴリやカウントなどの非連続値の場合に、その分布に応じて確率モデルとして回帰する手法
ロジスティック回帰: 2値データに対してロジット関数を用いる回帰モデル
プロビット回帰: 正規分布の累積分布関数（CDF）をリンク関数として用いる回帰モデル
ポアソン回帰: カウントデータに対してポアソン分布を仮定する回帰モデル
一般化線形モデル（GLM）: 応答変数の分布とリンク関数を組み合わせて回帰を行う統一的枠組み
リンク関数（link function）: 応答変数の期待値と線形予測子を結びつける関数
線形予測子（linear predictor）: 説明変数の線形結合

\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p

L(\theta)=\prod_{i=1}^{n} f(y_i \mid x_i, \theta)

非連続な応答変数を、その分布に応じた確率モデルで回帰する統一的手法

g(\mu_i) = \eta_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}

\mu_i = E[Y_i \mid x_i]

P(Y=1 \mid x)=\frac{1}{1+\exp(-\eta)}

\log \frac{p}{1-p} = \eta

P(Y=1 \mid x)=\Phi(\eta)

（$\Phi$ は標準正規分布のCDF）

Y_i \sim \text{Poisson}(\lambda_i)

\log \lambda_i = \eta_i

L(\beta)
=\prod_{i=1}^{n}
p_i^{y_i}(1-p_i)^{1-y_i}

・従来の線形回帰は「連続値＋正規分布」を前提
・現実には

→ 分布に応じた回帰が必要

GLMの考え方：

・固定：データ $(x_i, y_i)$
・変化：パラメータ $\beta$

→ 最尤推定で求める

モデル	分布	リンク関数	用途
ロジスティック回帰	ベルヌーイ	ロジット	2値分類
プロビット回帰	ベルヌーイ	正規CDF	2値分類
ポアソン回帰	ポアソン	対数	カウント
線形回帰	正規	恒等	連続値