こちらのバイブルを参考に、個人的に理解が怪しい、よく忘れる、テキストで行間をぶっ飛ばされた、と感じた部分をまとめていきます。
合格するまで随時更新予定。。。
確率関数、期待値、分散
確率変数が離散値
p(x) = P(X=x) \\
\mu = E[X] = \sum_x xp(x) \\
E[g(x)] = \sum_x g(x)p(x) \\
\sigma ^2 = V[X] = E[(X - \mu)] = \sum_x(x-\mu)^2p(x) \\
V[X] = E[X^2] - (E[X])^2
確率変数が連続な値
f(x) = \lim_{\epsilon \rightarrow 0}\frac{P(x < X \le x + \epsilon )}{\epsilon} \\
E[X] = \int^\infty_{-\infty}xf(x)dx \\
V[X] = \int^\infty_{-\infty}(x - \mu)^2f(x)dx
同時確率
離散値
$ X, Y$ を2つの離散確率変数とする。$X = x$ かつ $Y = y$となる確率を以下のように表す(同時確率関数)。
p(x, y) = P(X=x,Y=y)
同時確率関数から$X$のみの確率関数 $p_X(x)$を得るには、
p_X(x) = \sum_y p(x, y)
のように$y$について和を取れば良い。
$X$の分布を周辺分布(marginal distribution)と呼び、$p_X(x)$を周辺確率関数(marginal probability function)と呼ぶ。
連続値
$X, Y$を連続確率変数とし、
F(x, y) = P(X \le x, Y \le y)
を累積分布関数とする。
$X, Y$の同時確率密度関数(joint probability density function)は、$F(x, y)$ を$x$、$y$それぞれ偏微分することで求められる。
f(x, y) = \frac{\partial^2}{\partial x \partial y}F(x, y)
$X$の周辺確率密度関数(marginal probability density function)$f_X(x)$は、
f_X(x) = \int^\infty_{-\infty}f(x, y)dy
条件付き確率
離散
$X=x$が与えられた時に$Y=y$となる条件付き確率は、
p_{Y|X}(y|x) = \frac{p(x, y)}{p_X(x)}
連続
$X=x$としたときの$y$の条件付き確率密度関数(contitional probability density function)は、
f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)}
3つの変数$X, Y, Z$について、
f_{X, Y|Z}(x, y|z) = f_{X|Z}(x|z)f_{Y|Z}(y|z)
母関数
確率変数が離散値
確率変数$X$の確率関数を$p(x)$とし、$s$を任意の実数とするとき、$X$の確率母関数を
G(s) = E[s^X] = \sum_x s^xp(x)
と定義。微分して$s=1$を代入すると、
G'(1) = E[X] \\
G''(1) = E[X(X-1)]
と表され、期待値やら分散やらが求まる。
連続の値
モーメント母関数$m(\theta)$は確率母関数において$s = e^\theta$ とおいたもの。
m(\theta) = E[e^{\theta X}] = G(e^\theta)
こいつを微分して$\theta = 0$を代入すると、
m'(0) = E[X] \\
m''(0) = E[X^2]
となり、原点まわりのモーメント(積率)が得られる。
偏相関係数
$Z$の影響を除いた$X, Y$の偏相関係数は
\rho[X, Y|Z] = \frac{\rho[X, Y] - \rho[X, Z]\rho[Y, Z]}{\sqrt{(1 - \rho[X, Z]^2)(1 - \rho[Y, Z]^2)}}
この導出は↓を参考にすれば出来ると思います。
https://manabitimes.jp/math/1400
https://walkintheforest.net/partial_correlation_coefficient/
条件付き期待値、条件付き分散
$X$が与えられたもとでの$Y$の条件付き期待値と分散は、
E[Y|X] = \int^\infty_{-\infty}yf_Y(y)dy \\
V[Y|X] = E[Y^2|X] - (E[Y|X])^2
繰り返し期待値の法則
E[E[X|Y]] = E[X]
分散共分散行列
$\boldsymbol{X} = (X_1, \ldots, X_k)$を$k$次元確率ベクトルとする。$X_i$と$X_j$の共分散$\sigma_{ij} = E[(X_i - \mu_i)(X_j - \mu_j)]$を$(i, j)$要素とする行列
\sum = \left(\begin{array}{ccccc}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1k} \\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{k1} & \sigma_{k2} & \cdots & \sigma_{1k}
\end{array}\right)
を分散共分散行列とよぶ。
この行列の対角要素を1とし、$X_i$と$X_J$の相関係数を要素とする行列を相関係数行列または相関行列と呼ぶ(correlation matrix)
チェビシェフの不等式
確率変数$X$が、平均$\mu$、分散$\sigma^2$の確率分布に従う時、
P(|X-\mu| \ge k\sigma) \le \frac{1}{k^2}
が与えられる。
マルコフの不等式
任意の確率変数$X$と$a > 0$に対し、期待値$E[|X|]$が存在するとき、
P(|X| \ge a) \le \frac{E[|X|]}{a}
が与えられる。
確率収束と平均二乗収束
確率収束
\lim_{n \rightarrow \infty}P(|X_n - Y| > \epsilon) = 0
平均二乗収束
\lim_{n \rightarrow \infty}E[(X_n - Y)^2) = 0
平均二乗収束する確率変数列は確率収束する。
マルコフの不等式を使って証明します。
P(|X_n - Y| > \epsilon) = P((X_n - Y)^2 > \epsilon ^ 2) \le \frac{E[(X_n - Y)^2]}{\epsilon^2}
仮定より、右辺は$n \rightarrow \infty$で$0$に収束するので、左辺も収束する。おわり。
大数の弱法則
平均$\mu$、分散$\sigma^2$の分布に互いに独立に従う確率変数$X_1, X_2, \cdots$と任意の$\epsilon > 0$に対して、
\lim_{n \rightarrow \infty}P(|\frac{X_1+X_2+\cdots + X_n}{n} - \mu| \ge \epsilon ) = 0
が与えられる。
チェビシェフの不等式を使って証明します。
$Y_n = \frac{X_1+X_2+\cdots + X_n}{n}$とおくと、期待値と分散はそれぞれ、
E[Y_n] = \frac{1}{n} \cdot n\mu = \mu \\
V[Y_n] = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma ^ 2}{n}
となる。
\epsilon = k\sqrt{\frac{\sigma^2}{n}} \\
k^2 = \frac{n \epsilon ^ 2}{\sigma ^ 2}
をチェビシェフの不等式に代入すると、
P(|Y_n - \mu| \ge \epsilon) \le \frac{\sigma ^ 2}{n \epsilon ^ 2}
となり、両辺を$n \rightarrow \infty$の極限を取ることで、左辺は確率収束する。
分布収束
確率変数列{$X_n$}を考え、$X_n$の分布関数を$F_n(x) = P(X_n \le x)$と表す。このとき、{$X_n$}がある確率分布$G$に分布収束(あるいは法則収束)するとは、
\lim_{n \rightarrow \infty}F_n(x) = G(x)
という式が$G$の全ての連続点$x$において成り立つことと定義する。
文字通り、分布の収束を表す。
中心極限定理
$X_n$は平均$\mu$、分散$\sigma^2$の独立同一分布に従うと仮定する。また、$X_1, \ldots X_n$の標本平均を$\bar{X_n}$と記す。
このとき、
\sqrt{n}(\bar{X_n} - \mu)
は正規分布$\mathcal{N}(0, \sigma^2)$に分布収束する。
これを中心極限定理(central limit theorem)という。
デルタ法
{$X_n$}は平均$\mu$、分散$\sigma^2$の独立同一分布に従うと仮定する。また、$X_1,\ldots, X_n$の標本平均を$\bar{X_n}$と記す。
いま、ある関数$f$を用いて$f(\bar{X_n})$と表される量を考える。
$f(x)$が連続微分可能であれば、テイラーの定理から
f(\bar{X_n}) - f(\mu) \approx f'(\mu)(\bar{X_n} - \mu)
と近似出来る。
中心極限定理から、$\sqrt{n}(\bar{X_n} - \mu)$は$\mathcal{N}(0, \sigma^2)$に分布収束するので、
\begin{align}
\sqrt{n}(\bar{X_n} - \mu) &=
\frac{\sqrt{n}}{f'(\mu)}(f(\bar{X_n}) - f(\mu))
\end{align}
は$\mathcal{N}(0, f'(\mu)^2\sigma^2)$に分布収束する。
点推定の性質
真のパラメータ値$\theta$がどのような値であったとしても、$E_{\theta}[\hat{\theta}] = \theta$となるような推定量$\hat{\theta}$を不偏推定量とよび、$b_{\theta}(\hat{\theta}) := E_{\theta}[\hat{\theta}] - \theta$を推定量$\hat{\theta}$のバイアスとよぶ。不偏推定量はバイアスが常に$0$の推定量と言いかえられる。
平均二乗誤差$E_{\theta}[(\hat{\theta} - \theta)^ 2]$は、以下のようにバイアス項とバリアンス項に分けることが出来る。
\begin{align}
E_{\theta}[(\hat{\theta} - \theta) ^ 2] &= E_{\theta}[\hat{\theta} ^ 2] - 2E_{\theta}[\hat{\theta}\theta] + E_{\theta}[\theta ^ 2] \\
&= (E_{\theta}[\hat{\theta}]) ^ 2 + V[\hat{\theta}]- 2\theta E_{\theta}[\hat{\theta}] + \theta ^ 2 \\
&= (E_{\theta}[\hat{\theta}] - \theta) ^ 2 + V[\hat{\theta}] \\
&= (b_{\theta}(\hat{\theta})) ^ 2 + V[\hat{\theta}]
\end{align}
($\theta$は定数なので、カッコの外に出せる)
ガウス・マルコフの定理
最小2乗推定量$\hat{\boldsymbol{\beta}}$は最良線形不偏推定量(best linear unbiased estimator, BLUE)である。
証明は後日。。。
フィッシャー情報量
$\boldsymbol{X} = (X_1, \ldots , X_n)$を$f(x | \theta)$からのランダム・サンプルとする。
(簡単のために$\theta$は1次元の母数、母数空間は開区間を含む)
$\boldsymbol{X}$の同時確率関数もしくは同時確率密度関数を$f_n(\boldsymbol{x} | \theta)$とすると、
$f_n(\boldsymbol{x} | \theta) = \prod^n_{i=1} f(x_i | \theta)$と表される。
S_n(\theta, \boldsymbol{X}) = \frac{d}{d\theta}\log f_n(\boldsymbol{x} | \theta)
を、スコア関数といい、その2乗の期待値
I_n(\theta) = E[(S_n(\theta, \boldsymbol{X})) ^ 2] = E[(\frac{d}{d\theta}\log f_n(\boldsymbol{x} | \theta)) ^ 2]
をフィッシャー情報量という。$I_n(\theta)$はn個のデータのフィッシャー情報量。
いくつかの条件(詳細は久保川本P129)を仮定すると、以下の性質が成り立つ。
(1) $E[S_1(\theta, X_i)] = 0$
S_1(\theta, x) = \frac{\frac{d}{d\theta} f(x| \theta)}{f(x| \theta)}
と書けるので、
\begin{align}
E[S_1(\theta, x)] &= \int S_1(\theta, x) f(x|\theta) dx \\
&= \int \frac{\frac{d}{d\theta} f(x| \theta)}{f(x| \theta)}
f(x|\theta) dx \\
&= \int \frac{d}{d\theta} f(x| \theta)dx \\
&= \frac{d}{d\theta} \int f(x| \theta)dx \\
&= \frac{d}{d\theta} 1 \\
&= 0
\end{align}
(2) $n$個のデータのフィッシャー情報量は1個のデータのフィッシャー情報量の$n$倍になる。すなわち$I_n(\theta) = nI_1(\theta)$が成り立つ
$S_n(\theta, \boldsymbol{X}) = \sum^n_{i=1} S_1(\theta, X_i)$と書けるので、
\begin{align}
I_n(\theta) &= E[(S_n(\theta, \boldsymbol{X})) ^ 2] \\
&= \sum^n_{i=1} E[S_1(\theta, X_i) ^ 2] + \sum^n_{i=1}\sum^n_{j=1, j \ne i} E[S_1(\theta, X_i)]E[(S_1(\theta, X_j))] \\
&= \sum^n_{i=1} I_1(\theta) \\
&= nI_1(\theta)
\end{align}
(3) フィッシャー情報量は2階微分をもちいた次の形で表すことが出来る。
I_n(\theta) = -E[\frac{d^2}{d\theta ^ 2} \log f(X_i | \theta )]
\begin{align}
\frac{d^2}{d\theta ^ 2} \log f(X_i | \theta ) &= \frac{d}{d\theta} \frac{\frac{d}{d\theta} f(X_i| \theta)}{f(X_i| \theta)} \\
&= \frac{\frac{d ^ 2}{d\theta ^ 2} f(X_i| \theta) \cdot f(X_i| \theta) - \frac{d}{d\theta} f(X_i| \theta) \cdot \frac{d}{d\theta} f(X_i| \theta)}{(f(X_i| \theta)) ^ 2} \\
&= \frac{\frac{d ^ 2}{d\theta ^ 2} f(X_i| \theta)}{f(X_i| \theta)} - (\frac{\frac{d}{d\theta} f(X_i| \theta)}{(f(X_i| \theta))}) ^ 2 \\
&= - (\frac{\frac{d}{d\theta} f(X_i| \theta)}{(f(X_i| \theta))}) ^ 2
\end{align}
最後の行では、$\int \frac{d^2}{d\theta^2} f(x | \theta)dx = 0$となることに注意し、
E[\frac{\frac{d ^ 2}{d\theta ^ 2} f(X_i| \theta)}{f(X_i| \theta)}] = 0
となることを利用した。
クラメール・ラオの不等式
いくつかの条件(詳細は久保川本P129)を仮定する。 $\hat{\theta} = \hat{\theta}(\boldsymbol{X})$を$\theta$の不偏推定量とし、その分散が存在するとともに、
\frac{d}{d\theta}\int \hat{\theta}(\boldsymbol{x})f_n(\boldsymbol{x} | \theta) d\boldsymbol{x} = \int \hat{\theta}(\boldsymbol{x})\frac{d}{d\theta} f_n(\boldsymbol{x} | \theta) d\boldsymbol{x}
が成り立つことを仮定する。このとき任意の$\theta$に対して
Var(\hat{\theta}) \ge \frac{1}{I_n(\theta)}
なる不等式が成り立つ。これをクラメール・ラオの不等式といい、右辺をクラメール・ラオの下限という。
証明はコーシー・シュバルツの不等式を用いる。
(E[f(\boldsymbol{X})g(\boldsymbol{X})]) ^ 2 \le E[(f(\boldsymbol{X})) ^ 2] E[(g(\boldsymbol{X})) ^ 2]
を用いると、
(E[(\hat{\theta}(\boldsymbol{X}) - \theta) S_n(\theta, \boldsymbol{X})]) ^ 2 \le E[(\hat{\theta}(\boldsymbol{X}) - \theta) ^ 2] E[(S_n(\theta, \boldsymbol{X})) ^ 2] \\[10pt]
(E[(\hat{\theta}(\boldsymbol{X}) - \theta) S_n(\theta, \boldsymbol{X})]) ^ 2 \le Var_{\theta}(\hat{\theta}) \cdot I_n(\theta) \\[10pt]
Var_{\theta}(\hat{\theta}) \ge \frac{(E[(\hat{\theta}(\boldsymbol{X}) - \theta) S_n(\theta, \boldsymbol{X})]) ^ 2}{I_n(\theta)}
となる。ここで、$S_n(\theta, \boldsymbol{X}) = \sum^n_{i=1} S_1(\theta, X_i)$であり、
E[S_n(\theta, \boldsymbol{X})] = E[\sum^n_{i=1} S_1(\theta, X_i)] = 0
となることに注意すると、
\begin{align}
E[(\hat{\theta}(\boldsymbol{X}) - \theta) S_n(\theta, \boldsymbol{X})] &= E[\hat{\theta}(\boldsymbol{X})S_n(\theta, \boldsymbol{X})] - \theta E[S_n(\theta, \boldsymbol{X})] \\[10pt]
&= \int \hat{\theta}(\boldsymbol{x})\frac{d}{d\theta} f_n(\boldsymbol{x} | \theta)d\boldsymbol{x} \\[10pt]
&= \frac{d}{d\theta} \int \hat{\theta}(\boldsymbol{x}) f_n(\boldsymbol{x} | \theta)d\boldsymbol{x} \\[10pt]
&= \frac{d}{d\theta} \theta \\[10pt]
&= 1
\end{align}
となり、不等式が成り立つ。
また、この式の等号を満たすような不偏推定量を有効推定量という。有効推定量であれば一様最小分散不偏推定量である。
十分統計量
パラメータ$\theta$をもつ分布から得られた標本$\boldsymbol{X} = (X_1, \ldots, X_n)$を得た時、以下の式を満たす統計量$T = T(\boldsymbol{X})$を$\theta$の十分統計量と呼ぶ。
P(\boldsymbol{X} = \boldsymbol{x} | T(\boldsymbol{X}) = t, \theta) = P(\boldsymbol{X} = \boldsymbol{x} | T(\boldsymbol{X}) = t)
↑つまり、$T(\boldsymbol{X})$で条件づけた$\boldsymbol{X}$の分布がパラメータによらない。
漸近的性質
一致性
$\theta$の推定量$\hat{\theta}_n$が一致性をもつとは、$\hat{\theta}_n$が$\theta$に確率収束すること。
任意の$\epsilon>0$と任意の$\theta$に対して
\lim_{n \rightarrow \infty} P_{\theta} (|\hat{\theta}_n - \theta | \ge \epsilon) = 0
が成り立つことである。
スピアマンの順位相関係数
↓導出
https://syleir.hatenablog.com/entry/2020/04/03/225903
確率過程
各$t \in [0, \infty)$に対して、確率変数$X_t$が与えられた時、その族$X = (X_t)_{t\ge0}$を確率過程という。
独立定常増分
確率過程$X = (X_t)_{t\ge0}$が以下の2つを満たすとする。このような確率過程$X$を独立定常増分過程という。
- 任意の$0 = t_0 < t_1 < \cdots < t_{n-1} < t_n$に対して$X_{t_0}, X_{t_1}-X_{t_0}, X_{t_2}-X_{t_1}, \ldots, X_{t_n}-X_{t_{n-1}}$は互いに独立(独立増分性)
- 任意の$0 \le t < t + h$に対して$X_{t+h}-X_{t}$の分布は$X_h-X_0$の分布と同一である(定常増分性)
ブラウン運動
$B_0 = 0$なる確率過程$B = (B_t)_{t \ge 0}$が以下の3つの性質を満たす時、$B$をブラウン運動という。
- $B$は独立定常増分過程である
- 各$t \ge 0$に対して(周辺分布) $B_t \sim \mathcal{N}(\mu t, \sigma ^ 2t)$
- $B$のパスは連続である