準一級でも、一級でも出題される非復元無作為抽出に最初の投稿をしたのは2023年7月29日でした。2023年統計検定一級数理問5で出題されているため、再度復習、以前の投稿に間違いを発見、今日(2024/11/2,2183)に修正をします。
一般に、確率変数を扱う際には独立同一であることを仮定します。その方が、いろいろな計算が簡単で便利になるからです。
期待値は
$E(X) = \sum_{x} x \cdot P(X = x) \text{ or } E(X) = \int x f(x)dx$
分散は
$\mathbf{V}(X) = \sum_{x} (x-\mu)^2 \cdot P(X = x) \text{ or } V(X) = \int (x-\mu)^2 f(x)dx$
と表されます。特に流動性の高い株価の分析などには独立な確率変数として扱った方が便利であるかもしれません。しかし、流動性の無い株や、不動産の売買などは供給に限りがあるのでむしろ非復元無作為抽出として考えた方が実態に合っているかもしれません。
大きさ$N$の有限母集団から大きさ$n$の標本を非復元無作為抽出で得た場合の標本平均の分散は母分散に有限修正を施すことで得られます。その式は
$$
\text{Var}(\bar{X}) = \frac{\sigma^2}{n} \left( \frac{N - n}{N - 1} \right)
$$
ここで、
- $ \sigma^2 $ は母分散、
- $ N $ は母集団の大きさ、
- $ n $ は標本の大きさです。
この有限修正項$\left( \frac{N - n}{N - 1} \right)$を導きたいと思ったのですが、期待値の意味がよくわかっていないので、導出に苦労しました。有限母集団の非復元抽出の際には、期待値は確率を用いて算出するよりも、順列と組み合わせ、場合の数を駆使して計算した方がいいかもしれません。基本的なところを調べメモしましたので、残しておきたいと思います。間違い等がありましたら、ご指摘いただけると幸いです。
有限修正
有限修正は、母集団が有限であるために非復元抽出として行われる場合に、統計的推測の精度を高めるために使用される補正です。
- 標本が母集団に対して相対的に大きい場合、有限修正を使用することで、推測のバイアスを減らし精度を向上させます
- 標本が母集団のごく一部である場合(例:標本が母集団の5%未満)、有限修正の影響はほとんどありません
非復元抽出と有限修正は、実際のデータ収集や分析の際に考慮すべき重要な要因であり、母集団の大きさと標本の大きさがどのように相互作用するかを理解するのに役立ちます。特に、母集団が限られている場合や非復元抽出が行われる場合には、これらの概念が統計的推測の精度に重要な影響を及ぼす可能性があります。
非復元無作為抽出の標本平均と不偏推定量
(a) $\mathbf{V}[\bar{X}]$ の計算
$$
\mathbf{V}[\bar{X}]=\mathbf{V}\left[\frac{1}{m}\sum_{i=1}^mX_i\right]=\frac{1}{m^2}\mathbf{V}\left[\sum_{i=1}^mX_i\right]=\frac{1}{m^2}\mathbf{E}\left[\left(\sum_{i=1}^mX_i-\mathbf{E}\left[\sum_{i=1}^mX_i\right]\right)^2\right]
$$
- 各 $X_i$ の期待値は母平均に等しいため:
$$
\mathbf{E}[X_i] = \bar{x} \quad (i = 1, 2, \dots, m)
$$
$$
\mathbf{V}[\bar{X}]=\frac{1}{m^2}\mathbf{E}\left[
\left(\sum_{i=1}^mX_i-m\bar{x})\right)^2\right]=\frac{1}{m^2}\mathbf{E}\left[\left(\sum_{i=1}^m(X_i-\bar{x})\right)^2\right]
$$
$$
=\frac{1}{m^2}\mathbf{E}\left[\sum_{i=1}^m(X_i-\bar{x})^2+\sum_{i=1}^m\sum_{j=1,i\ne j}^m(X_i-\bar{x})(X_j-\bar{x})\cdots\right]
$$
$$
=\frac{1}{m^2}\sum_{i=1}^m\mathbf{V}[X_i]+\sum_{i=1}^m\sum_{j=1,i\ne j}^m\mathbf{Cov}[X_i,X_j]
$$
(b) $\mathbf{Cov}[X_i, X_j]$ の計算
$$
\mathbf{Cov}[X_i,X_j]=\mathbf{E}\left[(X_i-\bar{x})(X_j-\bar{x})\right]
$$
$$
=\mathbf{E}\left[X_iX_j-X_i\bar{x} -X_j\bar{x}+\bar{x}^2\right]
$$
$$
=\mathbf{E}[X_iX_j]-\mathbf{E}[X_i]\bar{x} -\mathbf{E}[X_j]\bar{x}+\bar{x}^2
$$
$$
=\mathbf{E}[X_iX_j]-\mathbf{E}[X_i]\mathbf{E}[X_j]
$$
(c) $\mathbf{E}[X_i X_j]$ の計算
-
$\mathbf{E}[X_i X_j]$ は、母集団から異なる2つの要素を選んだときの積の期待値です。
-
母集団の全ての異なるペアの組合せについて:
$$
\mathbf{E}[X_i X_j] = \frac{1}{N(N - 1)} \sum_{\substack{k=1 \ k \neq l}}^N x_k x_l
$$ -
この和を展開すると:
$$
\sum_{\substack{k=1 \ k \neq l}}^N x_k x_l = \left( \sum_{k=1}^N x_k \right)^2 - \sum_{k=1}^N x_k^2
$$ -
したがって:
$$
\mathbf{E}[X_i X_j] = \frac{1}{N(N - 1)} \left( N^2 \bar{x}^2 - \sum_{k=1}^N x_k^2 \right)
$$ -
共分散は次のようになります:
$
\mathbf{Cov}[X_i, X_j] = \mathbf{E}[X_i X_j] - \mathbf{E}[X_i] \mathbf{E}[X_j]
$
$= \frac{N^2 \bar{x}^2 - \sum_{k=1}^N x_k^2}{N(N - 1)} - \bar{x}^2$
$= \frac{N^2 \bar{x}^2 - N(N - 1) \bar{x}^2 - \sum_{k=1}^N x_k^2}{N(N - 1)}$
$= \frac{N \bar{x}^2 - \sum_{k=1}^N x_k^2}{N(N - 1)} $
(d) 分子の整理
-
母分散 $\sigma_N^2$ を用いて:
$$
\sigma_N^2 = \frac{1}{N} \left( \sum_{k=1}^N x_k^2 - N \bar{x}^2 \right)
$$ -
これを変形すると:
$$
\sum_{k=1}^N x_k^2 = N \bar{x}^2 + N \sigma_N^2
$$ -
これを共分散の分子に代入すると:
$$
N \bar{x}^2 - \sum_{k=1}^N x_k^2 = N \bar{x}^2 - (N \bar{x}^2 + N \sigma_N^2) = - N \sigma_N^2
$$
(d) 共分散の最終形
-
共分散は:
$$
\mathbf{Cov}[X_i, X_j] = \frac{ - N \sigma_N^2 }{ N (N - 1) } = - \frac{ \sigma_N^2 }{ N - 1 }
$$ -
先に示した分解式に、計算した分散と共分散を代入します。
-
分散の総和:
$$
\sum_{i=1}^m \mathbf{V}[X_i] = m \sigma_N^2
$$ -
共分散の総和:
$$
\sum_{i=1}^m\sum_{j=1,j\ne i}^m \mathbf{Cov}[X_i, X_j] = m (m - 1)\left( - \frac{ \sigma_N^2 }{ N - 1 } \right) = - \frac{ m (m - 1) \sigma_N^2 }{ N - 1 }
$$ -
標本平均の分散は:
$$
\begin{align*}
\mathbf{V}[\bar{X}] &= \frac{1}{m^2} \left( m \sigma_N^2 - \frac{ m (m - 1) \sigma_N^2 }{ N - 1 } \right) \
&= \frac{ \sigma_N^2 }{ m } \left( 1 - \frac{ m - 1 }{ N - 1 } \right)
\end{align*}
$$
(f) 分数の整理
-
分母を共通化して整理します:
$$
1 - \frac{ m - 1 }{ N - 1 } = \frac{ (N - 1) - (m - 1) }{ N - 1 } = \frac{ N - m }{ N - 1 }
$$ -
したがって、標本平均の分散は:
$$
\mathbf{V}[\bar{X}] = \frac{ \sigma_N^2 }{ m } \cdot \frac{ N - m }{ N - 1 }
$$