目的
十分統計量に関して簡単にメモ。
現代数理統計学[1]を参照。
数式少なめ。端折っているので、詳細な説明は本をご参照ください。
また自分なりの理解のための自己解釈が多めなので、用語の使い方や解釈で間違えていたらすみませんご指摘下さい。
まず情報量とは?
こちらのサイトが概念理解で分かりやすかったです。
https://logics-of-blue.com/information-theory-basic/
情報量とは、ある事象を推測する際に"このことを知っているとどれだけ推測に役立つか"を定量化したようなものだという自己解釈です。例えば、サイコロの目を振る場合、その目xについて以下の条件A,Bを考えます。
A: xは偶数である。
B: xは1か2である。
元々はxは1~6の6択でしたが、条件Aの場合は3択、条件Bの場合は2択になります。つまり、条件A,Bは、サイコロの目の推測に対して情報を与えたことになり、またその量はAよりBが多くなっています。この情報を数式で表現したのが情報量です。定義式などは参照元サイトに載ってるのでご参照下さい。概念が分かれば十分なので省略します。
十分統計量とは?(何が十分なの、、?)
まず、参照本の定義(一部文言省略)を紹介する。
定義の前提として、十分統計量とは、ある確率分布(正規分布等)のパラメータ(μ,σ)に対してある統計量(標本平均等)が十分統計量である、という文脈で使われる。
定義:
統計量Tがパラメータθに関する十分統計量であることは、Tを与えた時に確率変数Xの条件付き分布がθに依存しないことである。
例えば、成功確率pに従う標本$ X = (X_{1}...X_{n}) $と、統量$ Y = \sum_{i=1}^{n}X_{i} $があるとする(つまりYは二項分布bin(n,p))。
Xの条件付き確率は以下のようになる。
\displaylines{
P(X|Y=y) \\
= P(X,Y=y) / P(Y=y) \\
= p^{y}(1-p)^{n-y}/ {}_n \mathrm{C}_y \, p^{y}(1-p)^{n-y} \\
= 1/{}_n \mathrm{C}_y
}
3行目の式は、分子は確率pの事象が全体n回の内y回起きること、分母はbin(n,p)の二項分布に従うことから、上記のようになる。最終的には条件付き分布の式からpが消えている。つまり、yが分かっている(を条件とする)場合に、Xの(条件付き)確率分布を知るためにはpは必要ではなくyのみで十分ということ。
十分の意味(自己解釈):※1
統計量Tの値が分かっていれば、その標本の確率分布はあるパラメータθを知らなくても十分に求められる(十分な情報量がある、十分条件である)。
現実問題で母集団のパラメータは分からないことが多いので、十分統計量を求めることが標本の確率分布を求めるために必須になります。
分解定理
まず定義
定義:
確率変数$ X(=(x_{0},...,x_{n})) $の確率密度(質量)関数$ p_{θ} $について、統計量T(X)が十分統計量であるための必要十分条件は以下のように$ p_{θ}(x) $がTを含む式$ (g_{θ}) $とθを含まないxのみの関数$ (h(x)) $に分解できること。
\displaylines{
p_θ(x) = g_θ(T(x))h(x)
}
この定理の嬉しい点は、先ほどのように統計量Tを与えた場合の条件付き確率分布を求める必要が無いこと。
例えば、ポアソン分布$ p_{λ}(x) $に従う事象のn個の標本$ (X_{1},..,X_{n}) $について確率質量関数を考えると以下のようになる。
\displaylines{
p_{λ}(x) = \prod_{i=1}^{n} \frac{λ^{x_{i}}e^{-λ}}{x_{i}!} = λ^{(\sum_{i}^{n}x_{i})}e^{-nλ}(\prod_{i=1}^{n}x_{i}! )^{-1}
}
$g(T(x)) = λ^{(\sum_{i}^{n}x_{i})}e^{-nλ}$とすると、$ (\prod_{i=1}^{n}x_{i}! )^{-1} $はλを含まないxのみの関数になるため、$ \sum_{i}^{n}x_{i} $は十分統計量になる。十分統計量の定義と併せると、ポアソン分布に従う標本の確率分布は、標本の確率変数の合計値が分かれば、母集団のパラメータに依存せずに条件付き確率分布が求められる。
まとめ
情報量:ある標本についてこの情報(条件、統計量など)があると確率分布を推定するのにこれだけ役立つよ、という指標。
十分統計量:母集団のパラメータθが分からなくても標本の確率分布が分かるくらい十分な情報量を与えてくれる統計量。
分解定理:十分統計量を条件付き確率分布を使って証明しなくても判別できる方法。
注釈
※1 話の流れ的にこれを十分の意味として書きましたが、どちらかというと十分の意味(かつ十分統計量が重要である意味)は、母集団のパラメータの推定時に標本の確率変数Xの代わりに十分統計量だけでも推定できるの方が大事なようです。
参考文献
[1] 竹村彰通、新装改訂版 現代数理統計学、学術図書出版社、2020
[2] https://logics-of-blue.com/information-theory-basic/ (accessed 23/08/08)