1. まえがき
線形単回帰において回帰係数の区間推定を行うために、それら係数の分布について知ることが本稿の目的である。
込み入った話に入る前に、線形単回帰について、簡単に復習する。
二種類のデータの組$(x_i, y_i)$があり、そこに直線的な関係が見出せそうなときに、
y_i \sim \alpha + \beta x_i
という関係を想定して、データ群から$\alpha$と$\beta$を推量することを線形単回帰と呼ぶ。
$\alpha$と$\beta$を推量するためには、一般に、回帰直線とデータ間の誤差に対して、最小二乗法を用いる。
誤差$u_i$は、以下のように計算でき、
u_i = y_i - (\alpha + \beta x_i)
最小二乗法では、$\alpha$と$\beta$を変化させて$\Sigma u_i^2$を最小にする。つまり、
\frac{\partial\Sigma u_i^2}{\partial \alpha} = 0 \\
\frac{\partial\Sigma u_i^2}{\partial \beta} = 0
となる$\alpha$,$\beta$を推定量$\hat \alpha$,$\hat \beta$とする。(※二乗和中の$\alpha$と$\beta$の符号から、この極値は最小値のはず)
ここで、文字の頭のハットは、それらの変数が推定された量であることを表している。
そして、$\hat \alpha$,$\hat \beta$は、得られたデータを用いて、
\hat\beta = \frac{\Sigma (x_i-\bar x)(y_i - \bar y)}{\Sigma (x_i - \bar x)} \\
\hat\alpha = \bar y - \hat\beta \bar x
と計算できる。
線形単回帰の概要はこの通りである。
さて本題に戻るが、この$\hat \alpha$,$\hat \beta$やその線形和$\hat y_i(=\hat\alpha +\hat\beta x_i)$の区間推定を行うために、
$\hat \alpha$,$\hat \beta$がどのような確率分布に従うか知らねばならない。
この確率分布を導出するには、何かしら仮定となる確率モデルが必要となる。
そこで、まず次章で、確率的にデータ(実測値)が出現するモデルを導入する。
2. 線形単回帰モデル
実測値$y_i$と推定量$\hat y_i$には、誤差の分だけずれが生じる。
u_i = y_i - \hat y_i = y_i - (\hat\alpha +\hat\beta x_i)
本稿では、この誤差が平均$0$、分散$\sigma^2$の正規分布に従うというモデルを採用する。
そして、$y_i$は、以下で定義する確率変数$Y_i$の実現値と考える。
Y_i = \alpha + \beta x_i + U_i
ここで、$\alpha, \beta$は未知の母数で、$x_i$はデータの値で、$U_i$は誤差項を表す確率変数とした。
$U_i$は平均$0$、分散$\sigma^2$の正規分布に従うので、すべての$i$について、
E(U_i) = 0, V(U_i) = \sigma ^2
が成立する。
さらにもう一つの仮定を追加して、各データの誤差項は独立と考える。
そうすると、$i \neq j$のとき、
Cov(U_i, U_j) = E(U_i U_j) = 0
このように、誤差項の共分散と積の期待値は$0$となる。
(※独立→共分散=0だが、共分散=0→独立ではない https://manabitimes.jp/math/934)
3. 推定量と誤差項の関係性
3.1節と3.2節で、推定量$\hat\alpha$,$\hat\beta$が、誤差項$U_i$を用いてどのように表現できるか示す。
計算を進めると、推定量は、正規分布従う誤差項と線形関係にある確率変数であることが判明するが、この結果も重要である。
以下の正規分布が持つ性質により、推定量も正規分布に従うことがわかるためである。
①正規分布に従う確率変数$X$の線形変換$aX+b$は、正規分布$N(a\mu_x + b, a^2\sigma_x^2)$に従う。
②独立な正規分布に従う確率変数$X$と$Y$の和$X+Y$は、正規分布$N(\mu_x + \mu_y, \sigma_x^2+\sigma_y^2)$に従う。
3.1. 傾きの推定量(ベータハット)を誤差項で表現
推定量$\hat\beta$を、誤差を表す確率変数$U_i$を用いて書き表す。
\hat\beta
= \frac{\Sigma (x_i - \bar x)(Y_i - \bar Y)}{\Sigma (x_i - \bar x)^2}
= \frac{\Sigma (x_i - \bar x)\left(\beta (x_i - \bar x) + (U_i - \bar U)\right)}{\Sigma (x_i - \bar x)^2} \\
= \frac{\Sigma (x_i - \bar x)\left(\beta (x_i - \bar x)\right)}{\Sigma (x_i - \bar x)^2} + \frac{\Sigma (x_i - \bar x)(U_i - \bar U)}{\Sigma (x_i - \bar x)^2} \\
= \beta + \Sigma \frac{(x_i - \bar x)}{\Sigma (x_i - \bar x)^2} U_i
= \beta + \Sigma w_i U_i
最後に、下の変数を用いて、式をまとめた。
\ ※w_i = \frac{(x_i - \bar x)}{\Sigma (x_i - \bar x)^2}
3.2. 切片の推定量(アルファハット)を誤差項で表現
推定量$\hat\alpha$を、誤差を表す確率変数$U_i$を用いて書き表す。
\hat\alpha = \bar Y - \hat\beta \bar x = \alpha - (\hat\beta - \beta) \bar x + \bar U
4. 推定量の平均と分散
推定量$\hat\alpha$と$\hat\beta$を確立変数$U_i$で書き表すことができたので、その平均や分散が計算できる。
さらには、先述したとおり、推定量は正規分布に従うので、その平均と分散を知れば確立分布の情報をすべて知ることができる。
4.1. 傾きの推定量(ベータハット)の平均
まずは、$\hat\beta$の平均を求める。
\hat\beta = \beta + \Sigma w_i U_i
の両辺の期待値は一致するので、
E[\hat\beta] = E[\beta + \Sigma w_i U_i] = \beta + \Sigma w_i E[U_i] = \beta
となるので、$\hat\beta$は$\beta$の不偏推定量である。
4.2. 切片の推定量(アルファハット)の平均
次に、$\hat\alpha$の平均を求める。
\hat\alpha = \alpha - (\hat\beta - \beta) \bar x + \bar U
であるので、辺々に期待値をとると、
E[\hat\alpha] = \alpha - E[(\hat\beta - \beta)] \bar x + E[\bar U] =\alpha
となる。
ゆえに、$\hat\alpha$は$\alpha$の不偏推定量である。
計算の際に、$E[\hat\beta]=\beta$であることと、
E[\bar U] = \frac{1}{n} \Sigma E[Ui] = 0
を用いた。
4.3. 傾きの推定量(ベータハット)の分散
$\hat\beta$の分散を計算すると、
V[\hat\beta] = V[\beta + \Sigma w_i U_i]
= E[(\beta + \Sigma w_i U_i-E[\beta + \Sigma w_i U_i])^2] \\
= E[(\Sigma w_i U_i - E[\Sigma w_i U_i])^2]
= E[(\Sigma w_i U_i)^2]
= \Sigma _i \Sigma _j w_i w_j E[U_i U_j]
= \Sigma w_i^2 E[U_i^2]
= \Sigma w_i^2 E[(U_i - E[U_i])^2]
= \Sigma w_i^2 V[U_i] \\
= \sigma^2 \Sigma w_i^2
$w_i$を書き下して、計算をさらに進めると、
\Sigma w_i^2 = \Sigma _i \left( \frac{x_i - \bar x}{\Sigma_j (x_j - \bar x)^2}\right)^2 = \frac{\Sigma_i (x_i - \bar x)^2}{\left( \Sigma_j (x_j - \bar x)^2 \right)^2}
= \frac{1}{\Sigma (x_i - \bar x)^2}
なので、$\hat\beta$の分散は
V[\hat\beta] = \frac{\sigma^2}{\Sigma (x_i - \bar x)^2}
である。
4.4. 切片の推定量(アルファハット)の分散
$\hat\alpha$の分散を計算すると、
V[\hat\alpha] = E[(\hat\alpha - E[\alpha])^2]
= E[\left(\alpha - (\hat\beta-\beta)\bar x + \bar U - \alpha \right)^2] \\
= \bar x^2 E[(\hat\beta-\beta)^2] - 2\bar x E[(\hat\beta-\beta)\bar U] + E[\bar U^2]
となる。
右辺一項目の期待値の部分は、まさに$\hat\beta$の分散であり、$\frac{\sigma^2}{\Sigma (x_i - \bar x)^2}$と計算できる。
そして、右辺二項目の期待値の部分は、
E[(\hat\beta-\beta)\bar U] = E[\Sigma w_i U_i \frac{1}{n} \Sigma U_j ]
= E\left[\frac{\Sigma (x_i - \bar x) U_i}{\Sigma (x_i - \bar x)^2} \frac{1}{n} \Sigma U_j\right] \\
= \frac{1}{n \Sigma (x_i - \bar x)^2} E[\Sigma (x_i - \bar x) U_i \Sigma U_j]
= \frac{1}{n \Sigma (x_i - \bar x)^2} \Sigma_i \Sigma_j (x_i - \bar x) E[ U_i U_j] \\
= \frac{\sigma^2}{n \Sigma (x_i - \bar x)^2} \Sigma_i (x_i - \bar x) = 0
と$0$になる。
最後に、右辺三項目は、
E[\bar U^2] = \frac{1}{n^2} E[\Sigma_i \Sigma_j U_i U_j]
= \frac{1}{n^2} E[\Sigma_i U_i^2]
= \frac{n \sigma^2}{n^2} = \frac{\sigma^2}{n}
となる。
ゆえに、$\hat\alpha$の分散は、
V[\hat\alpha] = \bar x^2 \frac{\sigma^2}{\Sigma (x_i - \bar x)^2} + \frac{\sigma^2}{n}
= \sigma^2 \left( \frac{n\bar x^2 + \Sigma (x_i^2 - 2\bar x x_i + \bar x^2) }{n\Sigma(x_i-\bar x)^2} \right) \\
= \sigma^2 \left( \frac{n\bar x^2 + \Sigma x_i^2 - n \bar x^2}{n\Sigma(x_i-\bar x)^2} \right) \\
= \frac{\sigma^2 \Sigma x_i^2}{n\Sigma(x_i-\bar x)^2}
と求まる。
5. 推定量の分布
3章と4章の結果を推定量の分布としてまとめる。
\hat\beta \sim N \left(\beta \ , \frac{\sigma^2}{\Sigma (x_i - \bar x)^2} \right) \\
\hat\alpha \sim N \left(\alpha \ , \frac{\sigma^2 \Sigma x_i^2}{n\Sigma(x_i-\bar x)^2} \right)
さらに、この二つの推定量の分布から$\hat y_i$の分布も求めることができる。
$\hat y_i = \hat\alpha +\hat\beta x_i$という関係があるので、3章で述べた正規分布の性質により、
\hat y_i \sim N \left(\alpha + \beta x_i \ , \sigma^2 \left( \frac{\Sigma x_i^2}{n\Sigma(x_i-\bar x)^2} + \frac{x_i ^2}{\Sigma (x_i - \bar x)^2} \right) \right) \\
\sim N \left(\alpha + \beta x_i \ , \sigma^2 \left( \frac{\bar x^2}{\Sigma (x_i - \bar x)^2} + \frac{1}{n} + \frac{x_i ^2}{\Sigma (x_i - \bar x)^2} \right) \right) \\
\sim N \left(\alpha + \beta x_i \ , \sigma^2 \left( \frac{1}{n} + \frac{\bar x^2 + x_i ^2}{\Sigma (x_i - \bar x)^2} \right) \right)
となる。
注:書籍やネット記事には、
\hat y_i \sim N \left(\alpha + \beta x_i \ , \sigma^2 \left( \frac{1}{n} + \frac{(\bar x - x_i)^2}{\Sigma (x_i - \bar x)^2} \right) \right)
と記載されることが多い。先ほど示した$\hat y_i$の分散とこの分布の分散を比較すると、一致しないようにみえる。。。。(計算ミスなのか原因調査中)
6. 誤差分布の母分散が未知の場合
$\hat \alpha$,$\hat \beta$がどのような確率分布に従うか知ることで、$\hat \alpha$,$\hat \beta$や$\hat y_i$の区間推定を行う準備ができた。
しかし、往々にして、誤差項の母分散$\sigma$は未知数であることが多く、前章に示した正規分布では区間推定を行えない場合が多い。
そのような場合には、誤差項の母分散を誤差項の不偏分散に置き換え、$t$分布を利用して区間推定を行う。
そこで、最後に、$\hat y_i$を例にして$t$分布について補足する。
証明は割愛するが、
$\hat y_i$を標準化して、誤差項の母分散$\sigma^2$を誤差項の不偏分散$U^2$に置き換えた確率変数$T$は、
T=\frac{\hat y_i - (\alpha + \beta x_i)}{\sqrt{U^2 \left( \frac{1}{n} + \frac{(\bar x - x_i)^2}{\Sigma (x_i - \bar x)^2} \right)}}
自由度$n-2$の$t$分布に従う。
ここで、誤差項の不偏分散$U^2$は、
U^2 = \frac{\Sigma (Y_i - \hat y_i)^2}{n-2} = \frac{\Sigma \left((\alpha + \beta x_i + U_i ) - (\hat\alpha + \hat\beta x_i) \right)^2}{n-2}
で定義される。
(※$\hat \ $付きの文字と太文字は確率変数である。)
$t$分布の表を見て、自由度と信頼区間の幅から、区間の両端の値を求めることができる。
7. あとがき
実際にデータを用いた推定は、今回参考にさせていただいた資料などを元に、試してみていただきたいです。
間違い等、ビシバシご指摘ください。
8. 参考にさせていただいた資料
http://www2.econ.osaka-u.ac.jp/~tanizaki/class/2018/basic_econome/02.pdf
http://racco.mikeneko.jp/Kougi/08s/AS/AS04pr.pdf