記事の内容
- 統計学を学んでいると、当たり前のように出てくる「正規分布からの標本であれば、標本平均と標本不偏分散は互いに独立である」という性質。これは、t分布の導出をはじめ、様々な統計的推測の根幹をなす非常に重要な定理です。
- この記事では、この定理の証明をできるだけ丁寧にかみ砕いて解説していきます。証明の鍵となるのは「ヘルマート行列」による変数変換と「ヤコビアン」です。
- 本記事で扱う証明には、数理統計学の基礎を学ぶためのちょうどいい題材がたくさんつまっています!ですので、初心者のみなさんにとって、とくにいい練習になると思います!
証明のゴールと前提条件
まず、私たちが証明したいことと、そのための準備を整えましょう。
証明する定理
確率変数 $~X_1, X_2, \dots, X_n~$ が、互いに独立に正規分布 $~N(\mu, \sigma^2)~$ に従うとき、
- 標本平均 $~\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i~$
- 標本不偏分散 $~U^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2~$
は、互いに独立な確率変数となる。
独立とは?
2つの確率変数 $~A~$ と $~B~$ が独立であるとは、一方の結果がもう一方の結果に一切影響を与えない状態を指します。数式で表現すると、2つの同時確率密度関数 $~f(a, b)~$ が、それぞれの周辺確率密度関数 $~f_A(a)~$ と $~f_B(b)~$ の積で表せること ($~f(a,b) = f_A(a)f_B(b)~)~$ を意味します。
前提となる知識
- 確率密度関数: 確率変数の分布を表す関数。
- 正規分布: 平均 $~\mu~$、分散 $~\sigma^2~$ の釣鐘型の分布。
- 線形代数: 行列、行列式、直交行列の基本的な知識。
- 微分積分: 多変数関数の変数変換とヤコビアンの知識。
STEP 1: ヘルマート行列による変数変換
証明の最初のステップは、元の確率変数 $~X_1, \dots, X_n~$ を、新しい確率変数 $~Y_1, \dots, Y_n~$ に変換することです。この変換が、証明全体の鍵を握っています。
$~n~$ 個の確率変数を縦に並べたベクトルを $~\mathbf{X} = (X_1, \dots, X_n)^T~$ とします。このベクトルにある特殊な行列 $~\mathbf{H}~$ を左から掛けることで、新しいベクトル $~\mathbf{Y} = (Y_1, \dots, Y_n)^T~$ を作ります。
$~\mathbf{Y} = \mathbf{H} \mathbf{X}~$
この行列 $~\mathbf{H}~$ をヘルマート行列 (Helmholtz Matrix) と呼びます。ヘルマート行列は直交行列の一種で、次のように定義されます。
\mathbf{H} =
\begin{pmatrix}
\frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \cdots & \frac{1}{\sqrt{n}} \\
\frac{1}{\sqrt{1 \cdot 2}} & -\frac{1}{\sqrt{1 \cdot 2}} & 0 & \cdots & 0 \\
\frac{1}{\sqrt{2 \cdot 3}} & \frac{1}{\sqrt{2 \cdot 3}} & -\frac{2}{\sqrt{2 \cdot 3}} & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\frac{1}{\sqrt{(n-1)n}} & \frac{1}{\sqrt{(n-1)n}} & \cdots & \frac{1}{\sqrt{(n-1)n}} & -\frac{n-1}{\sqrt{(n-1)n}}
\end{pmatrix}
この行列の重要な性質は直交行列であることです。つまり、転置行列 $~\mathbf{H}^T~$ が逆行列 $~\mathbf{H}^{-1}~$ と等しくなります。
$~\mathbf{H}^T \mathbf{H} = \mathbf{H} \mathbf{H}^T = \mathbf{I} \quad (\text{ただし} ~\mathbf{I}~ \text{は単位行列})~$
このような変換を行う理由、それは、この変換によって標本平均と標本不偏分散を、新しい変数 $~Y_i~$ を使って綺麗に分離できるからです。
STEP 2: 新しい変数 Y_iと統計量の関係を探る
次に、変換後の変数 $~Y_i~$ が、よく知る統計量である $~\bar{X}~$ と $~U^2~$ にどう関係しているのかを見ていきましょう。
Y_1と標本平均
まず、$Y_1$ を計算してみます。$~Y_1~$ は行列 $~\mathbf{H}~$ の第1行とベクトル $~\mathbf{X}~$ の内積です。
$~Y_1 = \frac{1}{\sqrt{n}} X_1 + \frac{1}{\sqrt{n}} X_2 + \dots + \frac{1}{\sqrt{n}} X_n~$
$~Y_1 = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} X_i \quad (\text{共通因子でくくる})~$
ここで、標本平均 $~\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i~$ の定義を思い出すと、
$~Y_1 = \sqrt{n} \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) = \sqrt{n} \bar{X}~$
となり、$Y_1$ が標本平均 $~\bar{X}~$ と直接的な関係にあることが分かりました。
Y_iの二乗和と標本不偏分散
次に、二乗和の関係を見ていきます。$~\mathbf{H}~$ は直交行列なので、変換の前後でベクトルの長さ(ノルムの2乗)は変わりません。
$~\sum_{i=1}^{n} Y_i^2 = \mathbf{Y}^T \mathbf{Y} = (\mathbf{H}\mathbf{X})^T (\mathbf{H}\mathbf{X}) = \mathbf{X}^T \mathbf{H}^T \mathbf{H} \mathbf{X} = \mathbf{X}^T \mathbf{I} \mathbf{X} = \mathbf{X}^T \mathbf{X} = \sum_{i=1}^{n} X_i^2~$
つまり、
$~\sum_{i=1}^{n} Y_i^2 = \sum_{i=1}^{n} X_i^2~$
が成り立ちます。この式の $~Y_1^2~$ を左辺から右辺に移項してみましょう。
$~\sum_{i=2}^{n} Y_i^2 = \sum_{i=1}^{n} Y_i^2 - Y_1^2~$
$~\sum_{i=2}^{n} Y_i^2 = \sum_{i=1}^{n} X_i^2 - (\sqrt{n} \bar{X})^2 \quad (\text{上記の関係式を代入})~$
$~\sum_{i=2}^{n} Y_i^2 = \sum_{i=1}^{n} X_i^2 - n \bar{X}^2~$
ここで、偏差平方和(分散の分子)の有名な公式
$~\sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} X_i^2 - n \bar{X}^2~$
を使うと、
$~\sum_{i=2}^{n} Y_i^2 = \sum_{i=1}^{n} (X_i - \bar{X})^2~$
標本不偏分散 $~U^2~$ の定義 $~U^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2~$ を使って書き換えると、
$~(n-1) U^2 = \sum_{i=2}^{n} Y_i^2~$
となります。
ここまでのまとめ:
- $~Y_1 = \sqrt{n} \bar{X}~$ ($~\bar{X}~$ は $~Y_1~$ だけで決まる)
- $~(n-1)U^2 = \sum_{i=2}^{n} Y_i^2~$ ($~U^2~$ は $~Y_2, \dots, Y_n~$ だけで決まる)
標本平均と標本不偏分散を、それぞれ異なる $~Y_i~$ のグループに分離できました! これが独立性を示すための大きな一歩です。
STEP 3: 新しい変数 Y_i の分布を調べる
次に、変換後の変数 $~Y_i~$ たちがどのような確率分布に従うのか、そして互いに独立なのかを確かめます。
元の変数 $~X_1, \dots, X_n~$ は、それぞれ独立に正規分布 $~N(\mu, \sigma^2)~$ に従うのでした。ベクトルで書くと、期待値ベクトル $~E[\mathbf{X}]~$ と共分散行列 $~V[\mathbf{X}]~$ は、
$~E[\mathbf{X}] = (\mu, \mu, \dots, \mu)^T~$
V[\mathbf{X}] = \begin{pmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{pmatrix} = \sigma^2 \mathbf{I}~$ (対角成分以外は0、なぜなら互いに独立だから)
となります。
線形変換 $~\mathbf{Y} = \mathbf{H}\mathbf{X}~$ を施した後の $~\mathbf{Y}~$ の期待値と分散を計算します。
-
期待値 $~E[\mathbf{Y}]~$:
$~E[\mathbf{Y}] = E[\mathbf{H}\mathbf{X}] = \mathbf{H}E[\mathbf{X}] = \mathbf{H}(\mu, \dots, \mu)^T~$- $~E[Y_1] = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} E[X_i] = \frac{n\mu}{\sqrt{n}} = \sqrt{n}\mu~$
- $~k \ge 2~$ のとき、$E[Y_k]$ はヘルマート行列の第 $k$ 行の要素の和が $0$ になるように作られているため、$E[Y_k]=0$ となります。
-
共分散行列 $~V[\mathbf{Y}]~$:
$~V[\mathbf{Y}] = V[\mathbf{H}\mathbf{X}] = \mathbf{H}V[\mathbf{X}]\mathbf{H}^T = \mathbf{H}(\sigma^2\mathbf{I})\mathbf{H}^T = \sigma^2 (\mathbf{H}\mathbf{H}^T) = \sigma^2\mathbf{I}~$
($~\mathbf{H}~$ が直交行列なので $~\mathbf{H}\mathbf{H}^T = \mathbf{I}~)~$
計算の結果、$V[\mathbf{Y}]$ は対角成分が $~\sigma^2~$ で、非対角成分がすべて $~0~$ の対角行列になりました。これは、$~Y_1, Y_2, \dots, Y_n~$ が互いに独立であることを意味します。
また、正規分布に従う確率変数を線形変換したものもまた正規分布に従うため、$Y_i$ の分布は以下のようになります。
- $~Y_1 \sim N(\sqrt{n}\mu, \sigma^2)~$
- $~Y_k \sim N(0, \sigma^2) \quad (k=2, \dots, n)~$
これで、$Y_1$ と、$~{Y_2, \dots, Y_n}~$ のグループが互いに独立であることが確定しました。
STEP 4: ヤコビアンと同時確率密度関数
確率変数を変換したので、確率密度関数も変換する必要があります。その際に、変換に伴う「体積の変化率」を調整するのがヤコビアン (Jacobian) です。
$~X_1, \dots, X_n~$ から $~Y_1, \dots, Y_n~$ への変数変換のヤコビアン $~J~$ は、逆変換 $~\mathbf{X} = \mathbf{H}^T \mathbf{Y}~$ の偏導関数からなる行列の行列式で与えられます。
$~J = \det \left( \frac{\partial(x_1, \dots, x_n)}{\partial(y_1, \dots, y_n)} \right) = \det(\mathbf{H}^T)~$
直交行列の行列式の値は $~1~$ または $~-1~$ です。ヤコビアンは絶対値をとるので、
$~|J| = |\det(\mathbf{H}^T)| = 1~$
となります。ヤコビアンが $~1~$ というのは、この変数変換では微小体積が変化しないことを意味しており、計算が非常に楽になります。
さて、$X_1, \dots, X_n$ は独立なので、その同時確率密度関数 $~f_{\mathbf{X}}(\mathbf{x})~$ は各々の積で書けます。
$~f_{\mathbf{X}}(x_1, \dots, x_n) = \prod_{i=1}^n f_{X_i}(x_i)~$
変数変換後の $~Y_1, \dots, Y_n~$ の同時確率密度関数 $~f_{\mathbf{Y}}(\mathbf{y})~$ は、
$~f_{\mathbf{Y}}(y_1, \dots, y_n) = f_{\mathbf{X}}(\text{x を y で表したもの}) \cdot |J|~$
となります。しかし、もっと簡単な方法があります。STEP 3 で、$Y_i$ たちが互いに独立な正規分布に従うことが既に分かっています。したがって、彼らの同時確率密度関数も、それぞれの密度関数の積で直接書くことができます。
$~f_{\mathbf{Y}}(y_1, \dots, y_n) = f_{Y_1}(y_1) \cdot f_{Y_2}(y_2) \cdots f_{Y_n}(y_n)~$
これを具体的に書くと、
f_{\mathbf{Y}}(y_1, \dots, y_n) = \underbrace{ \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_1-\sqrt{n}\mu)^2}{2\sigma^2} \right) \right] }_{Y_1 \text{ の部分}} \cdot \underbrace{ \left[ \prod_{k=2}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{y_k^2}{2\sigma^2} \right) \right] }_{Y_2, \dots, Y_n \text{ の部分}}
この式の形は、
- 前半部分は $~y_1~$ のみの関数です。
- 後半部分は $~y_2, \dots, y_n~$ のみの関数です。
同時確率密度関数が、$y_1$ のみの関数と $~{y_2, \dots, y_n}~$ のみの関数の積に分離できています。これは、$Y_1$ と $~{Y_2, \dots, Y_n}~$ の集合が独立であることの決定的な証拠です。
結論: 独立性の証明完了!
最終的な論理を確認しましょう。
- STEP 2 より、標本平均 $~\bar{X}~$ は $~Y_1~$ だけの関数 ($~\bar{X} = Y_1 / \sqrt{n}~)~$ でした。
- STEP 2 より、標本不偏分散 $~U^2~$ は $~Y_2, \dots, Y_n~$ だけの関数 ($~U^2 = \frac{1}{n-1}\sum_{k=2}^{n} Y_k^2~)~$ でした。
- STEP 3 より、確率変数 $~Y_1~$ と、確率変数の集合 $~{Y_2, \dots, Y_n}~$ は互いに独立でした。
統計学には「独立な確率変数の関数どうしもまた独立である」という重要な性質があります。
したがって、
- $~Y_1~$ の関数である標本平均 $~\bar{X}~$
- $~{Y_2, \dots, Y_n}~$ の関数である標本不偏分散 $~U^2~$
この2つは互いに独立であると結論付けられます。
証明完了です!
この定理があるからこそ、母平均 $~\mu~$ の区間推定や仮説検定において、母分散 $~\sigma^2~$ が未知の場合でも、標本不偏分散 $~U^2~$ を使ってt分布を安心して利用することができるのです。
全体の議論をとおして、数理統計学の基礎に慣れるためのちょうどいい題材だと感じます。初心者の方の役に立つことを祈ります。