統計学実践ワークブックまとめ(第7~第9章)

Last updated at 2024-05-21Posted at 2024-05-16

第7章極限定理・漸近理論

1. 確率変数・分布の収束

大数の弱法則: $n$ 個の独立同分布の確率変数 $X_1, ..., X_n$ が期待値 $\mu$、分散 $\sigma^2$ を持つとする。$\bar{X}_n$ を標本平均とし、

$$
\bar{X}n = \frac{1}{n} \sum{i=1}^{n} X_i
$$

とおくとき、任意の $\epsilon > 0$ に対して、$n \to \infty$ のとき、

$$
P(|\bar{X}_n - \mu| > \epsilon) \to 0
$$

この性質を大数の弱法則といい、収束の方法を一般に確率収束と呼ぶ。

導出: 以下のチェビシェフの不等式を用いる。
$$P(|\bar{X}_n - \mu| > \epsilon) \leq \frac{E(|\bar{X}_n - \mu|^2)}{\epsilon^2}$$
任意の $\epsilon > 0$ に対して、$E(|\bar{X}_n - \mu|^2) = \frac{\sigma^2}{n}$ を用いて以下の不等式が成り立つ
$$P(|\bar{X}_n - \mu| > \epsilon) \leq \frac{\sigma^2}{n\epsilon^2}$$
$n \to \infty$ のときに右辺は0に収束するので、
$$P(|\bar{X}_n - \mu| > \epsilon) \to 0$$
確率収束:

任意の $c > 0$ に対して、$n \to \infty$ のとき
$$P(|Y_n - a| > c) \to 0$$
となることを $Y_n$ は $a$ に確率収束するといい、$Y_n \xrightarrow{p} a$ と書く。
$n \to \infty$ のとき、
$$E[|Y_n - a|^2] \to 0$$
となることを $Y_n$ は $a$ に平均二乗収束するという。

中心極限定理: 独立同分布に従う一連の確率変数 $X_1, X_2, X_3, \ldots, X_n$ があり、それぞれの期待値が $\mu$ で分散が $\sigma^2$（有限）である場合、変数の和 $S_n = X_1 + X_2 + \ldots + X_n$ の標準化された形
$$Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}}$$
は $n$ が大きくなるにつれて標準正規分布 $N(0,1)$ に収束する。
分布収束: 一確率変数 $X_1, X_2, X_3, \ldots, X_n$ の関係 $Y_{n} = g_{n}(X_1, X_2, X_3, \ldots, X_n)$ について、$Y_{n}$ の分布関数を $F_{n}(y)$、確率変数 $Y$ の分布関数を $F(y)$ とする。このとき、$Y_{n}$ が $Y$ に分布収束するとは $F(y)$ の連続点において
$$\lim_{n \to \infty} F_n(y) = F(y)$$
が成り立つことをいい、$Y_n \xrightarrow{d} Y$ もしくは $Y_n \xrightarrow{d} F$ のように書く。

2. 確率収束と分布収束の性質

確率収束と分布収束の性質: 確率変数 $U_n, V_n$ は $n$ に依存する確率変数で $U$ は $n$ に依存しない確率変数、$a$ は $n$ に依存しない定数とする。
1. 確率収束 $U_n \xrightarrow{p} a$ と分布収束 $U_n \xrightarrow{d} a$ は同値になる。
2. $h(\cdot)$ を連続な関数とすれば、$U_n \xrightarrow{p} a$ ならば $h(U_n) \xrightarrow{p} h(a)$ であり、$U_n \xrightarrow{d} a$ ならば $h(U_n) \xrightarrow{d} h(U)$ となる。これを連続写像定理といい、確率収束と分布収束は連続関数によって引き継がれることを表す。
スラツキーの定理： $U_n \xrightarrow{d} U$、$V_n \xrightarrow{p} a$ とするとき、連続写像定理から以下が成り立つ
$$U_n + V_n \xrightarrow{d} U + a$$
$$U_n V_n \xrightarrow{d} aU$$
デルタ法：関数 $h(\cdot)$ は、導関数 $h'(\cdot)$ が連続で $h'(\mu) \neq 0$ とするとき、
$$\sqrt{n} (h(U_n) - h(\mu)) \xrightarrow{d} N(0, \sigma^2 (h'(\mu))^2)$$
要は、$\sqrt{n} (h(U_n) - h(\mu))$ が $N(0, \sigma^2 (h'(\mu))^2)$ に収束するということで、テーラー展開とスラツキーの定理により証明することができる。

第8章統計的推定の基礎

1. 統計量

統計的推定：パラメータ $\theta$ をもつ確率分布 $F_{\theta}$ に独立に得られる標本 $X_1, X_2, ..., X_n$ を考えたとき、標本の観測値をもとに未知のパラメータ $\theta$ の値を推測すること。
点推定：標本のある関数を用いて $\theta$ の値を推定すること。
推定量と推定値： $h(X_1, X_2, ..., X_n)$ を推定量 (estimator) とよび、観測値の値を代入した $h(x_1, x_2, ..., X_n)$ を推定値 (estimate) とよぶ。

2. 各種推定法

最尤法：確率分布 $F_{\theta}$ の確率密度関数 $f(x;\theta)$ としたとき、標本の独立同一分布の同時確率密度関数は

$$
L(\theta) = \prod_{i=1}^{n} f(x_i;\theta)
$$

となる。これを $\theta$ の関数として扱うとき尤度関数 (likelihood function) という。この尤度関数を最大にする $\theta$ を見つける方法を最尤法という。このとき、尤度関数の対数をとった対数尤度を考えると計算がしやすくなることが多い。

3. 点推定の性質

全体像

一様最小分散不偏推定量を把握する流れ: 推定量の良さを決める ⇨ バイアス・バリアンス分解を行う ⇨ バイアスがゼロになる推定量を不偏推定量とする ⇨ そのなかでバリアンスが最小となる一様最小分散不偏推定量を把握する。
一様最小分散不偏推定量の把握の仕方
- クラーメル・ラオの不等式
  - フィッシャー情報量を用いて一様最小分散不偏推定量を判定する。
- 十分統計量
  - 母集団に関する情報を失わずに統計量を縮約する統計量。
  - 確率関数を十分統計量Tで分解した時、パラメータに依存する式と依存しない式に分解できるのであれば、分解定理よりTは十分統計量である。

各論

不偏推定量：真のパラメータ値 $\theta$ がどのような値であったとしても、$E_{\theta}[\hat{\theta}] = \theta$ となるような推定量 $\hat{\theta}$ を不偏推定量 (unbiased estimator) とよぶ。$b_{\theta}(\hat{\theta}) := E_{\theta}[\hat{\theta}] - \theta$ を推定量のバイアス (偏り、bias) とよぶので、不偏推定量はバイアスが常に0の推定量と言い換えられる。
バイアス・バリアンス分解: 平均二乗誤差 $E_{\theta}[(\hat{\theta} - \theta)^2]$ は、一般の確率変数 $X$ に対して $E[X^2] = E[X]^2 + V[X]$ が成り立つことから、以下のようにバイアスの2乗の項とバリアンス（分散）の項に分けることができる。

$$
E_{\theta}[(\hat{\theta} - \theta)^2] = (E_{\theta}[\hat{\theta}] - \theta)^2 + V_{\theta}[\hat{\theta}] = (b_{\theta}(\hat{\theta}))^2 + V_{\theta}[\hat{\theta}]
$$

これを平均二乗誤差のバイアス・バリアンス分解 (bias-variance decomposition) とよぶ。証明は
$E_{\theta}[(\hat{\theta} - \theta)^2] = E_{\theta}[(\hat{\theta} - E_{\theta}[(\hat{\theta})] + E_{\theta}[(\hat{\theta})] - \theta)^2]$ というテクニカルな式変形をして進めていく。

一様最小分散不偏推定量: 推定量を不偏推定量に限った中で、分散が最小となる推定量のこと。
フィッシャー情報量：フィッシャー情報量 (Fisher information) は、確率密度関数 $f$ の確率関数あるいは確率関数として

$$
J_n(\theta) = E_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X_1, ..., X_n; \theta) \right)^2 \right]
$$

により定義される。言葉にすると、確率関数の対数の2乗を$\theta$ で微分した期待値。
また、以下の数式はスコア関数とよばれ、期待値を取ると0になる。

$$
\frac{\partial}{\partial \theta} \log f(X_1, ..., X_n; \theta)
$$

クラメール・ラオの不等式：不偏推定量の分散とフィッシャー情報量の間に成立する不等式のことで、以下が成立する。

$$
V_{\theta}[\hat{\theta}] \geq J_n(\theta)^{-1}
$$

つまり、不偏推定量 $\hat{\theta}$ をどのように選んでも、その分散をフィッシャー情報量の逆数より小さくできない = フィッシャー情報量の逆数が下限になることを意味する。よって、等号が成立する $\hat{\theta}$ が存在すれば、それが一様最小分散不偏推定量となる。
※フィッシャー情報量が正であるという条件が必要

十分統計量: 母集団に関する情報を失わずに統計量を縮約する統計量で、パラメータ $\theta$ をもつ分布から得られた標本 $X_1, ..., X_n$ をまとめて $X$ と書くとき、$T(X) = t$ を与えた時の条件付き確率が $\theta$ に依存しないことをいう。

$$
P(X = x \mid T(X) = t_{\theta}) = P(X = x \mid T(X) = t)
$$

すなわち、上記式が $\theta$ に依存しないことだが、これを直接示すのは容易ではないので以下の分解定理を用いる。

フィッシャー・ネイマンの分解定理: $T(X)$ が $\theta$ の十分統計量であるための必要十分条件は適当な関数 $h$ と $g$ が存在して

$$
f(x; \theta) = h(x)g(T(x), \theta)
$$

という分解が可能であることが示される。つまり、確率密度関数を $\theta$ に依存しない関数と、依存する関数の積に分解したときに、後者が十分統計量のみを含むような分解が存在すると表せること。

漸近正規性: ある統計量がサンプルサイズが増加するにつれて正規分布に近づく性質。
例：標本平均の漸近正規性: 平均 $\mu$ と分散 $\sigma^2$ を持つ独立同分布に従う無限個の確率変数からなる母集団から、サイズ $n$ のサンプルを取る。
- 標本平均 $\bar{X}_n$ は次のように定義される。
$$
\bar{X}n = \frac{1}{n} \sum{i=1}^n X_i
$$

中心極限定理により、標本平均 $\bar{X}_n$ の分布は $n$ が大きくなるにつれて次の正規分布に近づく。

$$ Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \to N(0, 1) $$

これは、標本平均が平均 $\mu$、標準偏差 $\sigma/\sqrt{n}$ の正規分布に従うことを意味する。

第9章区間推定

1.区間推定

区間推定（interval estimation）とは、データを用いて未知母数の値の存在範囲を区間として推定する方法である。

2. 母平均の区間推定

確率変数 $X$ の母集団分布が正規分布 $N(\mu, \sigma^2)$ に従っており、母分散 $\sigma^2$ を既知とする。母平均 $\mu$ の区間推定を考える。この母集団分布からの独立な標本 $X_1, X_2, ..., X_n$ の標本平均 $\overline{X}$ は正規分布 $N(\mu, \sigma^2 / n)$ に従うことから、

$$
u = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}
$$

は標準正規分布 $N(0, 1)$ に従う。標準正規分布の両側2.5%点 (1.96) および上側97.5%点 (-1.96) から、以下の確率式が成り立つ。

$$
P(-1.96 \leq u \leq 1.96) = 0.95
$$

3. 信頼区間

式 (9.1) に $u = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}$ を代入し、$\mu$ について整理すると、

$$
P \left( -1.96 \frac{\sigma}{\sqrt{n}} \leq \overline{X} - \mu \leq 1.96 \frac{\sigma}{\sqrt{n}} \right) = 0.95
$$

となる。式 (9.2) は、母平均 $\mu$ が確率的に変動する区間 $(\overline{X} - 1.96 \frac{\sigma}{\sqrt{n}}, \overline{X} + 1.96 \frac{\sigma}{\sqrt{n}})$ に含まれる確率が0.95であることを意味している。この確率0.95を信頼度（confidence level）あるいは信頼係数（confidence coefficient）とよび、標本 $X_1, X_2, ..., X_n$ に依存して得られる区間を信頼区間（confidence interval）、信頼区間の上限と下限を信頼限界（confidence limit）とよぶ。また、信頼率0.95の信頼区間を95%信頼区間とよぶ。

4. 信頼率と信頼区間の幅

信頼率を大きくすると、信頼区間が $\mu$ を含む確率は大きくなるが、区間幅が広くなり、$\mu$ の値を推測する上での有用性を損なう。一方で、信頼率を小さくすると、区間幅が狭くなり、$\mu$ の値を推測する上での有用性は増すものの、$\mu$ を含む確率が小さくなってしまう。信頼率を一定に保ったままで区間幅を狭くするためには、標本サイズを大きくすればよい。

参考文献

日本統計学会公式認定統計検定準1級対応統計学実践ワークブック
データ解析のための数理統計入門（著者：久保川　達也）
現代数理統計学（著者：竹村彰通）
数研講座シリーズ大学教養微分積分（著者：加藤　文元）
統計学のための数学入門30講 (科学のことばとしての数学)（著者：永田　靖）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up