記事の概要
正規線形モデル $\boldsymbol{y}=\boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}, \boldsymbol{\varepsilon} \sim N(\boldsymbol{0}_n, \sigma^2 \boldsymbol{I}_n)$を考える。この線形モデルに対し、特定の$\boldsymbol{x}$に対する線形モデルの推定値$y = \boldsymbol{x}^T \boldsymbol{\beta}$の信頼区間を導出する。そして、この正規線形モデルが単回帰$y_j = \beta_0 + \beta_1 x_j + \varepsilon_j$の場合に、$x \in \mathbb{R}$に対する$y = \beta_0 + \beta_1 x$の信頼区間を表す曲線の具体的な方程式を導き、それが双曲線であることを示す。
この記事は導出を丁寧に示すことを目的としている。
問題設定
正規線形モデルを以下のように定義する。
\displaylines{
\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}, \,\, \boldsymbol{\varepsilon} \sim N(\boldsymbol{0}, \sigma^2 \boldsymbol{I}_n) \\
\boldsymbol{y} \in \mathbb{R}^n, \boldsymbol{X} \in \mathbb{R}^{n \times p}, \boldsymbol{\beta} \in \mathbb{R}^{p}, \boldsymbol{\varepsilon} \in \mathbb{R}^{n}
}
観測データは添字$o$を付けて$\boldsymbol{y}_o \in \mathbb{R}^{n}, \boldsymbol{X}_o\in \mathbb{R}^{n \times p}$と表記することとする。 $n$がサンプルサイズ、$p$はパラメータ数。$\boldsymbol{\beta}, \sigma^2$が未知パラメータである。
簡単のため、$\boldsymbol{X}_o$は冗長でない、つまり$\mathrm{rank}(\boldsymbol{X}_o) = p$とする。この場合、$\boldsymbol{X}_o^T \boldsymbol{X}_o$は逆行列を持つ。
推定値の信頼区間の一般形の導出
観測データ$\boldsymbol{y}_o, \boldsymbol{X}_o$の下で、特定の$\boldsymbol{x} \in \mathbb{R}^p$に対して、$y = \boldsymbol{x}^T \boldsymbol{\beta}$の信頼区間を構成する。$\boldsymbol{x}^T \boldsymbol{\beta}$の信頼区間は、$\boldsymbol{\beta}$の線形制約$\boldsymbol{x}^T \boldsymbol{\beta} = y$を帰無仮説とする仮説検定を、観測データ$\boldsymbol{y}_o, \boldsymbol{X}_o$の下で実施した際に、帰無仮説が棄却されない$y$の範囲である。(パラメータの信頼区間と検定の関係は私の過去記事リンク参照)
正規線形モデルのパラメータに対する線形制約を帰無仮説とする検定は、$F$検定で実施できる。$F$検定統計量は、
F = \frac{(\mathrm{RSS}_1 - \mathrm{RSS}_0)/k}{\mathrm{RSS}_0/(n-p)}
である。記号の意味は、
- $\mathrm{RSS}_0$: 制約なしの最小二乗解における残差平方和 (Residual Sum of Squares)。
- $\mathrm{RSS}_1$: 線形制約の下での最小二乗解における残差平方和。
- $k$: 線形制約の行列のランク。$\boldsymbol{x}^T \boldsymbol{\beta} = y$の場合は$k=1$。
この検定統計量$F$は、帰無仮説が真、つまり線形モデルの真の$\boldsymbol{\beta}$が線形制約を満たす時、自由度$(k, n-p)$の$F$分布に従う。
観測データ$\boldsymbol{y}_o, \boldsymbol{X}_o$に対して、$\mathrm{RSS}_0$と線形制約$\boldsymbol{x}^T \boldsymbol{\beta} = y$についての$\mathrm{RSS}_1$を具体的に計算する。
制約のない線形モデルの最小二乗解は$\| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}\|^2$が最小となる$\boldsymbol{\beta}$であり、$\mathrm{RSS}_0$は$\| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}\|^2$の最小値である。この時の$\boldsymbol{\beta}$を$\boldsymbol{\beta}_0$とする。
\begin{align}
\| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}\|^2 =& (\boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta})^T (\boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}) \\
=& \boldsymbol{y}_o^T \boldsymbol{y}_o - \boldsymbol{y}_o^T \boldsymbol{X}_o \boldsymbol{\beta} - \boldsymbol{\beta}^T \boldsymbol{X}_o^T \boldsymbol{y}_o + \boldsymbol{\beta}^T \boldsymbol{X}_o^T \boldsymbol{X}_o \boldsymbol{\beta} \\
=& (\boldsymbol{\beta} - (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o)^T \boldsymbol{X}_o^T \boldsymbol{X}_o (\boldsymbol{\beta} - (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o) \\
& + \boldsymbol{y}_o^T \boldsymbol{y}_o - \boldsymbol{y}_o^T \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T \boldsymbol{y}_o
\end{align}
と変形できるので、
\begin{align}
\boldsymbol{\beta}_0 &= (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o \\
\mathrm{RSS}_0 &= \boldsymbol{y}_o^T \boldsymbol{y}_o - \boldsymbol{y}_o^T \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T \boldsymbol{y}_o \\
&= \boldsymbol{y}_o^T (\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T) \boldsymbol{y}_o
\end{align}
である。
ここで、仮定しているモデル$\boldsymbol{y}=\boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}, \boldsymbol{\varepsilon} \sim N(\boldsymbol{0}, \sigma^2 \boldsymbol{I}_n)$より、未知の真の$\boldsymbol{\beta}$について、$\boldsymbol{\varepsilon}_0 = \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}$とすると、$\boldsymbol{\varepsilon}_0$は$N(\boldsymbol{0}_n, \sigma^2 \boldsymbol{I}_n)$に従う。$\boldsymbol{y}_o = \boldsymbol{X}_o \boldsymbol{\beta} + \boldsymbol{\varepsilon}_0$を$\mathrm{RSS}_0$に代入して、
\begin{align}
\mathrm{RSS}_0 =& (\boldsymbol{X}_o \boldsymbol{\beta} + \boldsymbol{\varepsilon}_0)^T (\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T) (\boldsymbol{X}_o \boldsymbol{\beta} + \boldsymbol{\varepsilon}_0) \\
=& \boldsymbol{\varepsilon}_0^T (\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T) \boldsymbol{\varepsilon}_0
\end{align}
である。
$$
(\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T) + \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T = \boldsymbol{I}_n
$$
であり、$(\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T), \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T$はどちらも冪等行列なので、フィッシャー・コクランの定理から、
\begin{align}
\frac{\mathrm{RSS}_0}{\sigma^2} = \frac{\boldsymbol{\varepsilon}_0^T}{\sigma} (\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}
\boldsymbol{X}_o^T) \frac{\boldsymbol{\varepsilon}_0}{\sigma}
\end{align}
は$\frac{\boldsymbol{\varepsilon}_0}{\sigma} \sim N(\boldsymbol{0}_n, \boldsymbol{I}_n)$より、自由度$n-p$のカイ二乗分布に従う。ゆえに、
$$
E\left[\frac{\mathrm{RSS}_0}{\sigma^2}\right] = n-p
$$
となる。つまり、
$$
E\left[\frac{\mathrm{RSS}_0}{n-p}\right] = \sigma^2
$$
なので、$\mathrm{RSS}_0/(n-p)$は$\sigma^2$の不偏推定量になる。これを$\hat{\sigma^2}$と表記することとする。
次に、線形制約$\boldsymbol{x}^T \boldsymbol{\beta} = y$の下での最小二乗解を求めて$\mathrm{RSS}_1$を計算する。制約下の最小化問題を解くため、ラグランジュ未定乗数法を用いる。$\lambda \in \mathbb{R}$を用いて、
L = \frac{1}{2} \| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}\|^2 - \lambda (y - \boldsymbol{x}^T \boldsymbol{\beta})
とする。$L$の$\boldsymbol{\beta}, \lambda$での偏微分が$0$となる$\boldsymbol{\beta}, \lambda$を求めればよく、
\begin{align}
\frac{\partial L}{\partial \boldsymbol{\beta}} =& - \boldsymbol{X}_o^T \boldsymbol{y}_o + \boldsymbol{X}_o^T \boldsymbol{X}_o \boldsymbol{\beta} + \lambda \boldsymbol{x} = 0 \\
\frac{\partial L}{\partial \lambda} =& -y + \boldsymbol{x}^T \boldsymbol{\beta} = 0
\end{align}
となる。これを行列で表記し、
\begin{bmatrix}
\boldsymbol{X}_o^T \boldsymbol{X}_o & \boldsymbol{x} \\
\boldsymbol{x}^T & 0
\end{bmatrix} \begin{bmatrix}
\boldsymbol{\beta} \\ \lambda
\end{bmatrix} = \begin{bmatrix}
\boldsymbol{X}_o^T \boldsymbol{y}_o \\ y
\end{bmatrix}
逆行列を計算して、$\boldsymbol{\beta}, \lambda$を求める。
\begin{align}
&\begin{bmatrix}
\boldsymbol{X}_o^T \boldsymbol{X}_o & \boldsymbol{x} \\
\boldsymbol{x}^T & 0
\end{bmatrix}^{-1}
= \begin{bmatrix}
(\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} - \frac{(\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x} \boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} & \frac{(\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} \\
\frac{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} & -\frac{1}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}}
\end{bmatrix}
\end{align}
なので、線形制約$\boldsymbol{x}^T \boldsymbol{\beta} = y$の下で残差平方和を最小化する$\boldsymbol{\beta}$を$\boldsymbol{\beta}_1$とすれば、
\begin{align}
\boldsymbol{\beta}_1 =& (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o - \frac{(\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x} \boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1}\boldsymbol{X}_o^T \boldsymbol{y}_o - y (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} \\
=& \boldsymbol{\beta}_0 - \frac{\boldsymbol{x}^T \boldsymbol{\beta}_0 - y}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}
\end{align}
である。$\boldsymbol{\beta}_0 = (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o$を用いている。
したがって、
\begin{align}
\mathrm{RSS}_1 =& \| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}_1\|^2 \\
=& \left\| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}_0 + \frac{\boldsymbol{x}^T \boldsymbol{\beta}_0 - y}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}\right\|^2 \\
=& \| \boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}_0 \|^2 + \left\| \frac{\boldsymbol{x}^T \boldsymbol{\beta}_0 - y}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}\right\|^2 \\
& + 2 \frac{\boldsymbol{x}^T \boldsymbol{\beta}_0 - y}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} (\boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta}_0)^T \boldsymbol{X}_0 (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x} \\
=& \mathrm{RSS}_0 + \frac{(\boldsymbol{x}^T \boldsymbol{\beta}_0 - y)^2}{{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}}} \\
& + 2 \frac{\boldsymbol{x}^T \boldsymbol{\beta}_0 - y}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}} \boldsymbol{y}_o ^T (\boldsymbol{I}_n - \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o) \boldsymbol{X}_o^T) \boldsymbol{X}_0 (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x} \\
=& \mathrm{RSS}_0 + \frac{(\boldsymbol{x}^T \boldsymbol{\beta}_0 - y)^2}{\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}}
\end{align}
である。
以上より、$F$検定統計量は、
\begin{align}
F =& \frac{\mathrm{RSS}_1 - \mathrm{RSS}_0}{\mathrm{RSS}_0 / (n-p)} \\
= & \frac{(\boldsymbol{x}^T \boldsymbol{\beta}_0 - y)^2}{(\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x})\hat{\sigma^2}}
\end{align}
となる。帰無仮説$\boldsymbol{x}^T \boldsymbol{\beta}_0 = y$の下で$F$は自由度$(1, n-p)$の$F$分布に従うので、有意水準$\alpha$で帰無仮説が棄却されない$y$の範囲は、
\frac{(\boldsymbol{x}^T \boldsymbol{\beta}_0 - y)^2}{(\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}) \hat{\sigma^2}} \le F^{(1, n-p)}_{1-\alpha}
である。$t$分布と$F$分布の関係から
t^{(n-p)}_{1-\frac{\alpha}{2}} = \sqrt{F^{(1, n-p)}_{1-\alpha}}
である。$t$分布の分位点を用いて、$y = \boldsymbol{x}^T \boldsymbol{\beta}$の$100(1 - \alpha)\%$信頼区間の上限下限は
\boldsymbol{x}^T \boldsymbol{\beta}_0 \pm t^{(n-p)}_{1-\frac{\alpha}{2}} \sqrt{(\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}) \hat{\sigma^2}}
となる。
単回帰モデルの推定値の信頼区間の上限下限を表す曲線の方程式
単回帰モデルを
y_j = \beta_0 + \beta_1 x_j + \varepsilon_j, \varepsilon_j \sim N(0, \sigma^2), j=1,...,n \,\,\, i.i.d
とする。行列による表現では、
\boldsymbol{X} = \begin{bmatrix}
1 & x_1 \\
\vdots & \vdots \\
1 & x_n
\end{bmatrix}, \boldsymbol{\beta} = \begin{bmatrix}
\beta_0 \\ \beta_1
\end{bmatrix}
となる。パラメータ数の$p$は$2$である。$\boldsymbol{y}, \boldsymbol{X}$の観測データは$\boldsymbol{y}_o, \boldsymbol{X}_o$とし、
\boldsymbol{X}_o = [\boldsymbol{1}_n, \boldsymbol{x}_o], \boldsymbol{x}_o \in \mathbb{R}^n
と表記する。
特定の$x \in \mathbb{R}$に対応する$\boldsymbol{x} = [1, x]$における単回帰モデルの推定値$y = \boldsymbol{x}^T \boldsymbol{\beta} = \beta_0 + \beta_1 x$の信頼区間を$x, \boldsymbol{y}_o, \boldsymbol{x}_o$で表す。
記号の準備をする。
\boldsymbol{y}_o = \begin{bmatrix}
y^o_1 \\ \vdots \\ y^o_n
\end{bmatrix},
\boldsymbol{x}_o = \begin{bmatrix}
x^o_1 \\ \vdots \\ x^o_n
\end{bmatrix}
として、$\boldsymbol{y}_o, \boldsymbol{x}_o$の標本平均、標本分散、標本共分散を以下の記号で表す。
\begin{align}
\bar{x} =& \frac{1}{n} \sum^{n}_{j=1} x^o_j \\
\bar{y} =& \frac{1}{n} \sum^{n}_{j=1} y^o_j \\
S_{xx} =& \frac{1}{n} \sum^{n}_{j=1} \left(x^o_j - \bar{x}\right)^2 = \frac{1}{n} \sum^{n}_{j=1} \left(x^o_j\right)^2 - \bar{x}^2 \\
S_{yy} =& \frac{1}{n} \sum^{n}_{j=1} \left(y^o_j - \bar{y}\right)^2 = \frac{1}{n} \sum^{n}_{j=1} \left(y^o_j\right)^2 - \bar{y}^2 \\
S_{xy} =& \frac{1}{n} \sum^{n}_{j=1} \left(x^o_j - \bar{x}\right) \left(y^o_j - \bar{y}\right) = \frac{1}{n} \sum^{n}_{j=1} \left(x^o_j y^o_j\right) - \bar{x}\bar{y}
\end{align}
信頼区間を計算するために必要な要素$\boldsymbol{x}^T \boldsymbol{\beta}_0, \boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x}, \hat{\sigma^2}$を計算する。
\begin{align}
\boldsymbol{X}_o^T \boldsymbol{X}_o =& n \begin{bmatrix}
1 & \bar{x} \\
\bar{x} & S_{xx} + \bar{x}^2 \\
\end{bmatrix} \\
(\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} =& \frac{1}{n S_{xx}} \begin{bmatrix}
S_{xx} + \bar{x}^2 & -\bar{x} \\
-\bar{x} & 1 \\
\end{bmatrix} \\
\boldsymbol{X}_o^T \boldsymbol{y}_o =& n \begin{bmatrix}
\bar{y} \\ S_{xy} + \bar{x} \bar{y}
\end{bmatrix} \\
\boldsymbol{\beta}_0 =& (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o \\
=& \frac{1}{S_{xx}}\begin{bmatrix}
\bar{y} S_{xx} - \bar{x} S_{xy} \\
S_{xy}
\end{bmatrix} \\
\boldsymbol{x}^T \boldsymbol{\beta}_0 =& \bar{y} + \frac{S_{xy}}{S_{xx}} (x - \bar{x}) \\
\boldsymbol{x}^T (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{x} =& \frac{1}{nS_{xx}} (S_{xx} + \bar{x}^2 - 2 \bar{x} x + x^2) \\
=& \frac{S_{xx} + (x - \bar{x})^2}{n S_{xx}} \\
\hat{\sigma^2} =& \frac{\mathrm{RSS}_0}{n-2} \\
=& \frac{1}{n-2} \left( \boldsymbol{y}_o^T \boldsymbol{y}_o - \boldsymbol{y}_o^T \boldsymbol{X}_o (\boldsymbol{X}_o^T \boldsymbol{X}_o)^{-1} \boldsymbol{X}_o^T \boldsymbol{y}_o\right) \\
=& \frac{1}{n-2} \left(nS_{yy} + n\bar{y}^2 - \boldsymbol{y}_o^T \boldsymbol{X}_o \boldsymbol{\beta}_0 \right) \\
=& \frac{n}{n-2}\frac{S_{xx} S_{yy} - S_{xy}^2}{S_{xx}}
\end{align}
と計算できるので、$x$における線形モデルの推定値の$100(1-\alpha)\%$信頼区間の上限下限は、
\bar{y} + \frac{S_{xy}}{S_{xx}} (x - \bar{x}) \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{S_{xx} + (x - \bar{x})^2}{S_{xx}} \cdot \frac{S_{xx} S_{yy} - S_{xy}^2}{(n-2) S_{xx}}}
となる。この上限下限の曲線を
y = \bar{y} + \frac{S_{xy}}{S_{xx}} (x - \bar{x}) \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{S_{xx} + (x - \bar{x})^2}{S_{xx}} \cdot \frac{S_{xx} S_{yy} - S_{xy}^2}{(n-2) S_{xx}}}
として、さらに整理する。$\boldsymbol{x}_o, \boldsymbol{y}_o$の標本相関係数を
R = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}
とすれば、
y = \bar{y} + R \sqrt{\frac{S_{yy}}{S_{xx}}} (x - \bar{x}) \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{1-R^2}{n-2}} \sqrt{\frac{S_{yy}}{S_{xx}}} \sqrt{S_{xx} + (x - \bar{x})^2}
と変形でき、さらに整理すると、
\frac{y - \bar{y}}{\sqrt{S_{yy}}} = R \frac{x - \bar{x}}{\sqrt{S_{xx}}} \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{1 - R^2}{n-2}} \sqrt{1 + \left(\frac{x - \bar{x}}{\sqrt{S_{xx}}}\right)^2}
となる。つまり、回帰直線とその信頼区間の上限下限は、$x, y$を標本平均と標本標準偏差で規格化した$\frac{x - \bar{x}}{\sqrt{S_{xx}}}, \frac{y - \bar{y}}{\sqrt{S_{yy}}}$と相関係数$R$で表現することができる。
$\tilde{x} = \frac{x - \bar{x}}{\sqrt{S_{xx}}}, \tilde{y} = \frac{y - \bar{y}}{\sqrt{S_{yy}}}$としてさらに整理する。
\tilde{y} - R \tilde{x} = \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{1 - R^2}{n-2}} \sqrt{1 + \tilde{x}^2}
の両辺を二乗して、
\begin{align}
&\tilde{y}^2 - 2 R \tilde{x}\tilde{y} + R^2 \tilde{x}^2 = \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2} \left(1 + \tilde{x}^2\right)
\end{align}
整理すると、
\left(R^2 - \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2}\right) \tilde{x}^2 - 2 R \tilde{x}\tilde{y} + \tilde{y}^2 = \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2}
となる。二次形式で表すと、
\begin{bmatrix} \tilde{x} & \tilde{y} \end{bmatrix}
\begin{bmatrix}
R^2 - \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2} & -R \\
-R & 1
\end{bmatrix}
\begin{bmatrix} \tilde{x} \\ \tilde{y} \end{bmatrix} = \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2}
となる。
\det \begin{bmatrix}
R^2 - \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2} & -R \\
-R & 1
\end{bmatrix} = - \left(t^{(n-2)}_{1-\frac{\alpha}{2}}\right)^2 \frac{1-R^2}{n-2} < 0
なので、この二次形式は双曲線の方程式である。
単回帰の推定値の信頼区間の上限下限を表す双曲線の性質
漸近線の傾き
単回帰の推定値の信頼区間の上限下限を表す双曲線
y = \bar{y} + R \sqrt{\frac{S_{yy}}{S_{xx}}} (x - \bar{x}) \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{1-R^2}{n-2}} \sqrt{\frac{S_{yy}}{S_{xx}}} \sqrt{S_{xx} + (x - \bar{x})^2}
の漸近線の傾きは、
\lim_{x \rightarrow \infty} \frac{y}{x} = R \sqrt{\frac{S_{yy}}{S_{xx}}} \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{1-R^2}{n-2}} \sqrt{\frac{S_{yy}}{S_{xx}}}
である。
実はこれは、単回帰モデルの傾きをあらわすパラメータ$\beta_1$の信頼区間の上限下限となる。$\beta_1$の信頼区間は$\beta_1 = b$の線形制約を帰無仮説が棄却されない$b$の範囲であり、$F$検定から構成できる。
線形制約$\beta_1 = b$の下での最小二乗解を求める。$\boldsymbol{\beta} = [\beta_0, b]$として、
\begin{align}
\|\boldsymbol{y}_o - \boldsymbol{X}_o \boldsymbol{\beta} \|^2 =& \|\boldsymbol{y}_o - \beta_0 \boldsymbol{1}_n - b \boldsymbol{x}_o\|^2 \\
=& \|\boldsymbol{y}_o - b \boldsymbol{x}_o\|^2 - 2 \beta_0 \boldsymbol{1}_n^T (\boldsymbol{y}_o - b \boldsymbol{x}_o) + n \beta_0^2 \\
=& \|\boldsymbol{y}_o - b \boldsymbol{x}_o\|^2 - 2 n \beta_0 (\bar{y} - b \bar{x}) + n \beta_0^2 \\
=& n \{\beta_0 - (\bar{y} - b \bar{x})\}^2 + \|\boldsymbol{y}_o - b \boldsymbol{x}_o\|^2 - (\bar{y} - b \bar{x})^2
\end{align}
となるため、$\beta_0 = \bar{y} - b \bar{x}$が線形制約$\beta_1 = b$の下での$\beta_0$の最小二乗解であり、$\mathrm{RSS}_1 = \|\boldsymbol{y}_o - b \boldsymbol{x}_o\|^2 - (\bar{y} - b \bar{x})^2$である。さらに整理すると、
\begin{align}
\mathrm{RSS}_1 =& \|\boldsymbol{y}_o - b \boldsymbol{x}_o\|^2 - (\bar{y} - b \bar{x})^2 \\
=& n(S_{yy} + \bar{y}^2) - 2nb (S_{xy} + \bar{x} \bar{y}) + n b^2 (S_{xx} + \bar{x}^2) - (\bar{y} - b \bar{x})^2 \\
=& n (S_{yy} - 2b S_{xy} + b^2 S_{xx})
\end{align}
である。
\mathrm{RSS}_0 = n \left(S_{yy} - \frac{S_{xy}^2}{S_{xx}}\right)
なので、線形制約$\beta_1 = b$を帰無仮説とする$F$検定の検定統計量は、
\begin{align}
F =& \frac{(\mathrm{RSS}_1 - \mathrm{RSS}_0)}{\mathrm{RSS}_0/(n-2)} \\
=& \frac{(n-2) \left(b^2 S_{xx} - 2b S_{xy} + \frac{S_{xy}^2}{S_{xx}}\right)}{S_{yy} - \frac{S_{xy}^2}{S_{xx}}} \\
=& \frac{(n-2)S_{xx}^2 \left(b - \frac{S_{xy}}{S_{xx}}\right)^2}{S_{xx} S_{yy} - S_{xy}^2}
\end{align}
となる。帰無仮説が棄却されない$b$の範囲は、
\frac{(n-2)S_{xx}^2 \left(b - \frac{S_{xy}}{S_{xx}}\right)^2}{S_{xx} S_{yy} - S_{xy}^2} \le F^{(1, n-2)}_{1-\alpha}
となる。つまり、$\beta_1$の$100(1 - \alpha)\%$信頼区間の上限下限は、
\frac{S_{xy}}{S_{xx}} \pm \sqrt{F^{(1, n-2)}_{1-\alpha} \frac{S_{xx} S_{yy} - S_{xy}^2}{(n-2)S_{xx}^2}}
である。これを$R = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$と、$F$分布と$t$分布の関係を用いて整理すると、
R \sqrt{\frac{S_{yy}}{S_{xx}}} \pm t^{(n-2)}_{1-\frac{\alpha}{2}} \sqrt{\frac{1-R^2}{n-2}} \sqrt{\frac{S_{yy}}{S_{xx}}}
となる。これは単回帰の推定値の信頼区間の上限下限を表す双曲線の漸近線の傾きと等しい。