はじめに
統計学で2標本問題を勉強していると, いきなり「合併した分散 pooled variance」という新概念が登場してきてとまどいます.
(併合分散, プールした分散などとも呼ばれていますね)
つまり, 統計学の教科書などでは, 母分散は未知だが等しいとわかっているときの2標本問題を考えるときに
$$
\begin{equation}
\frac{
\left(n_{1}-1\right)s_{1}^{2} +
\left(n_{2}-1\right)s_{2}^{2}
}{
\left(n_{1}+n_{2}-2\right)
}
=s^{2}
\end{equation}
$$
のように標本分散の重みつき平均をとってからt統計量を
$$
\begin{equation}
\tau=\frac{
\left(\bar{X_{1}}-\bar{X_{2}}\right)
\left(\mu_{1}-\mu_{2}\right)
}{
\sqrt{
\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)
s^{2}
}
}
\end{equation}
$$
のようにとる, という記載があまり説明されずに突然登場することがほとんどです.
しかし, これでは
- なぜいきなり2つの標本分散の平均を使う(使ってよい)のか?
- 標本分散の平均を母分散のかわりに使うことで, なにかを暗黙に前提してしまっているのではないか?
という疑問が出てきてしまいます.
実は, 合併した分散は2標本問題を定義どおりに順次だてて考えていったときに途中に登場する「あくまでも便宜的な量」にすぎない, と考えてしまっても(2標本問題を考えるうえで)とくに問題ありません.
以下に示すように, 2標本問題は「合併した分散」を設定するところからスタートしなくてもきちんと考えることができます.
もう一度いいます.
「合併した分散」を知らなくても, 2標本問題は解けます!!
準備(1): 母集団と標本
2つの正規母集団 $A,B$ の分散はいずれも $\sigma^{2}$ であるとし, 期待値をそれぞれ $\mu_{1}$, $\mu_{2}$ とおく. つまり
A \sim N\left(\mu_{1}, \sigma^{2}\right),
\quad
B \sim N\left(\mu_{2}, \sigma^{2}\right)
と仮定する.
$A$からサイズ$n_{1}$の互いに独立な標本
X_{1}=\{ x_{1,1}, ..., x_{1,n_{1}} \},
$B$からサイズ$n_{2}$の互いに独立な標本
X_{2}=\{ x_{2,1}, ..., x_{2,n_{2}} \},
を得たとする.
最終的な目標は, これらの標本をもとに母平均の差 $\left(\mu_{1}-\mu_{2}\right)$ について推定や検定を行うことである.
準備(2): 標本平均の差の分布の導入
$X_{1},X_{2}$ の標本平均を $\bar{X_{1}}, \bar{X_{2}}$ とおくと,
\bar{X_{1}} = \frac{1}{n_{1}}\sum_{i=1}^{n_{1}} x_{1,i}, \quad
\bar{X_{2}} = \frac{1}{n_{2}}\sum_{i=1}^{n_{2}} x_{2,i}
であり, これらの期待値と分散はそれぞれ
\begin{align}
E\left[\bar{X_{1}}\right]
&= E\left[\frac{1}{n_{1}}\sum_{i=1}^{n_{1}} x_{1,i}\right]
= \sum_{i=1}^{n_{1}} \frac{E\left[x_{1,i}\right]}{n_{1}}
= \frac{n_{1}\mu_{1}}{n_{1}}
= \mu_{1},
\\
V\left[\bar{X_{1}}\right]
&= V\left[\frac{1}{n_{1}}\sum_{i=1}^{n_{1}}
x_{1,i}\right]
= \frac{V\left[\sum_{i=1}^{n_{1}}
x_{1,i}\right]}{n_{1}^{2}}\\
&= \frac{\sum_{i=1}^{n_{1}}V\left[
x_{1,i}\right]}{n_{1}^{2}}
= \frac{n_{1}\sigma^{2}}{n_{1}^{2}} = \frac{\sigma^{2}}{n_{1}},\\
E\left[\bar{X_{2}}\right] &= \mu_{2},\\
V\left[\bar{X_{2}}\right] &= \frac{\sigma^{2}}{n_{2}}
\end{align}
となる.1
また, $\bar{X_{1}}, \bar{X_{2}}$ はいずれも正規母集団からの標本の線型結合だから, やはり正規分布に従う. よって
\bar{X_{1}} \sim N\left(\mu_{1}, \frac{\sigma^{2}}{n_{1}}\right), \quad \bar{X_{2}} \sim N\left(\mu_{2}, \frac{\sigma^{2}}{n_{2}}\right)
が成り立つ.
さらに, 正規分布の再生性より, 標本平均の差 $\bar{X_{1}}-\bar{X_{2}}$ は次の正規分布に従う:
\left(\bar{X_{1}}-\bar{X_{2}}\right)
\sim
N\left(
\mu_{1}-\mu_{2},
\:
\frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}}
\right)
そして, これを正規化した変数 $Z$ は標準正規分布に従う:
Z = \frac{
\left(\bar{X_{1}}-\bar{X_{2}}\right)-\left(\mu_{1}-\mu_{2}\right)
}
{
\sqrt{
\frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}}
}
} \sim N\left(0, 1\right)
ところが, 母分散 $\sigma^{2}$ が未知の場合は $Z$ が計算できないので, このままでは $\left(\mu_{1}-\mu_{2}\right)$ について知ることができない.
準備(3): カイ二乗分布の導入
$X_{1},X_{2}$はいずれも正規母集団からの標本であるため,
\begin{align}
\chi_{1}^{2}
&=
\frac{1}{\sigma^{2}}
\sum_{i=1}^{n_{1}}
\left(
x_{1,i}-\bar{X_{1}}
\right)^{2},\\
\chi_{2}^{2}
&=
\frac{1}{\sigma^{2}}
\sum_{i=1}^{n_{2}}
\left(
x_{2,i}-\bar{X_{2}}
\right)^{2}
\end{align}
とおくと $\chi_{1}^{2}, \chi_{2}^{2}$ はそれぞれ自由度 $n_{1}-1, ,n_{2}-1$ のカイ二乗分布に従う.2
さらに, カイ二乗分布の再生性3より, これらの和を $\chi^{2}=\chi_{1}^{2}+\chi_{2}^{2}$ とおくと,
\begin{align}
\chi^{2}
&=\chi_{1}^{2}+\chi_{2}^{2}\\
&=
\frac{1}{\sigma^{2}}
\left(
\sum_{i=1}^{n_{1}}
\left(
x_{1,i}-\bar{X_{1}}
\right)^{2}
+
\sum_{i=1}^{n_{2}}
\left(
x_{2,i}-\bar{X_{2}}
\right)^{2}
\right)
\end{align}
は自由度 $n_{1}+n_{2}-2$ のカイ二乗分布に従う.
ところで, 標本分散を $s_{1}^{2}, ,s_{2}^{2}$ とおくと,
\begin{align}
s_{1}^{2}
&=
\frac{1}{n_{1}-1}\sum_{i=1}^{n_{1}}\left( x_{1,i}-\bar{X_{1}} \right)^{2}
,\\
s_{2}^{2}
&=\frac{1}{n_{2}-1}\sum_{i=1}^{n_{2}}\left( x_{2,i}-\bar{X_{2}} \right)^{2}
\end{align}
であり,
s_{1}^{2}
=
\frac{\sigma^{2}}{n_{1}-1}
\chi_{1}^{2}
,\quad
s_{2}^{2}
=
\frac{\sigma^{2}}{n_{2}-1}
\chi_{2}^{2}
が成り立つから, $,\chi^{2}$ の式から $\chi_{1}^{2},,\chi_{2}^{2}$ が消去できて
$$
\begin{equation}
\chi^{2}=\frac{\left(n_{1}-1\right)s_{1}^{2} + \left(n_{2}-1\right)s_{2}^{2}
}
{\sigma^{2}}
\tag{1}
\end{equation}
$$
となる. これが自由度 $n_{1}+n_{2}-2$ のカイ二乗分布に従う.
2標本問題(1): 母分散の推定
脱線するが, この時点で母分散 $\sigma^{2}$ を統計学的に推定することができる. なぜなら, 式 $(1)$ を $\sigma^{2}$ について
\sigma^{2} =
\frac{\left(n_{1}-1\right)s_{1}^{2} + \left(n_{2}-1\right)s_{2}^{2}
}
{\chi^{2}}
のように書き直すと, $n_{1}, ,n_{2}, ,s_{1}^{2}, ,s_{2}^{2}$ は標本から計算できる既知の値であり, あとは $\chi^{2}$ の動きだけ考えればよいからである.
準備(4): t分布の導入
本筋に戻ろう.
$Z$ は標準正規分布に従い,
Z = \frac{
\left(\bar{X_{1}}-\bar{X_{2}}\right)-\left(\mu_{1}-\mu_{2}\right)
}
{
\sqrt{
\frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}}
}
} \sim N\left(0, 1\right)
$\chi^{2} $は自由度 $\left(n_{1}+n_{2}-2\right)$ のカイ二乗分布に従うのであった.
\chi^{2}
=
\frac{\left(n_{1}-1\right)s_{1}^{2} + \left(n_{2}-1\right)s_{2}^{2}
}
{\sigma^{2}}
\sim
\chi^{2}\left(n_{1}+n_{2}-2\right)
したがって, $t$分布の定義より, 以下の $\tau$ は自由度 $\left(n_{1}+n_{2}-2\right)$ の$t$分布に従う:
\tau
=
\frac{Z}{
\sqrt{
\frac{\chi^{2}}{n_{1}+n_{2}-2}
}
}
\sim
t\left(n_{1}+n_{2}-2\right)
$\tau$ の式から $Z$ と $\chi^{2}$ を消去すると, 途中で同時に $\sigma^{2}$ も消えて
\begin{align}
\tau
&=
\frac{
\left(\bar{X_{1}}-\bar{X_{2}}\right)-\left(\mu_{1}-\mu_{2}\right)
}
{
\sqrt{
\frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}}
}
}
\sqrt{
\frac
{\sigma^{2}\left(n_{1}+n_{2}-2\right)}
{\left(n_{1}-1\right)s_{1}^{2} + \left(n_{2}-1\right)s_{2}^{2}}
}
\end{align}
$$
\begin{equation}
=\frac{
\left(\bar{X_{1}}-\bar{X_{2}}\right)
\left(\mu_{1}-\mu_{2}\right)
}{
\sqrt{
\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)
\frac{
\left(n_{1}-1\right)s_{1}^{2} +
\left(n_{2}-1\right)s_{2}^{2}
}{
\left(n_{1}+n_{2}-2\right)
}
}
}
\tag{2}
\end{equation}
$$
となる.
2標本問題(2): 母平均の差の推定
これで, 母平均の差 $\mu_{1}-\mu_{2}$ について推定や検定を行うことができる.
なぜなら, 式$(2)$を母平均の差 $\mu_{1}-\mu_{2}$ について
$$
\begin{equation}
\mu_{1}-\mu_{2} = \left(\bar{X_{1}}-\bar{X_{2}}\right)
- \tau
\sqrt{
\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)
\frac{
\left(n_{1}-1\right)s_{1}^{2} +
\left(n_{2}-1\right)s_{2}^{2}
}{
\left(n_{1}+n_{2}-2\right)
}
}
\tag{3}
\end{equation}
$$
のように書き直すと, $n_{1}, ,n_{2}, ,\bar{X_{1}}, ,\bar{X_{2}}, ,s_{1}^{2}, ,s_{2}^{2}$ は標本から計算できる既知の値であり, あとは $\tau$ の動きだけ考えればよいからである.
標本分散の合併とはなんだったのか
以上のように, 標本分散の合併をとくに意識しなくても正規母集団の2標本問題を考えることは可能です.
ところで, 式$(2)$, 式$(3)$ にはどちらも
$$
\begin{equation}
\frac{
\left(n_{1}-1\right)s_{1}^{2} +
\left(n_{2}-1\right)s_{2}^{2}
}{
\left(n_{1}+n_{2}-2\right)
}
\end{equation}
$$
という量が登場していますが, よくみるとこれは (標本サイズ-1) を重みとする標本分散の重みづけ平均になっていることがわかります. つまり, この
$$
\begin{equation}
\frac{
\left(n_{1}-1\right)s_{1}^{2} +
\left(n_{2}-1\right)s_{2}^{2}
}{
\left(n_{1}+n_{2}-2\right)
}
=s^{2}
\end{equation}
$$
こそが標本分散の合併そのものにほかなりません.
$s^{2}$ を用いて式$(2),(3)$を書き直せば,
$$
\begin{equation}
\tau=\frac{
\left(\bar{X_{1}}-\bar{X_{2}}\right)
\left(\mu_{1}-\mu_{2}\right)
}{
\sqrt{
\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)
s^{2}
}
}
\tag{2'}
\end{equation}
$$
$$
\begin{equation}
\mu_{1}-\mu_{2} = \left(\bar{X_{1}}-\bar{X_{2}}\right)
- \tau
\sqrt{
\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)
s^{2}
}
\tag{3'}
\end{equation}
$$
のように成書で見なれた形になります.
まとめ
「2標本問題を解くときは合併した分散を使う」ということを覚えなくても,
- t分布は標準正規分布とカイ二乗分布の比のようなものである
という定義に忠実に計算すれば, 1標本のときとほとんど同じ手順でt統計量を導くことができます.
唯一1標本のときと異なるのは「正規分布の再生性」「カイ二乗分布の再生性」を使うことくらいです.
-
途中で「たがいに独立な変数の和の分散は分散の和に等しい」ことを用いています. ↩
-
参考: https://risalc.info/src/st-chi-squared-distribution-summary.html ↩