この記事で解説すること
- 十分統計量の定義
- 十分統計量の具体例
- フィッシャー-ネイマンの分解定理
必要な前提知識
この記事は以下の知識を前提としています。
- 統計量
- 代表的な確率分布の知識
- 条件付き確率分布/条件付き確率密度関数
- 同時確率分布/同時確率密度関数
十分統計量って難しくない?
統計学を勉強していると、一致推定量
、不偏推定量
、最尤推定量
、十分統計量
、順序統計量
など、様々な性質を持った統計量が登場しますよね。その中でも、理解するのが難しいのが、十分統計量ではないでしょうか?
筆者自身も十分統計量が理解できずに苦労した経験があります😭。
まず私が疑問に思った点は、なぜ十分「推定量」ではなく、十分「統計量」なのかという点です。
それぞれの定義を見てみましょう。
統計量の定義(『統計学入門』(東京大学教養学部統計学教室編)より)
標本を要約し、母集団の母数のいろいろな推測に使われるもの
推定量の定義(『統計学入門』(東京大学教養学部統計学教室編)より)
母数を推定するために標本から求めた統計量を一般的に推定量という
つまり、母数を推定するための統計量を推定量と呼んでいます。何が言いたいかというと、十分統計量は必ずしも母数推定を直接の目的にしているとは限らないということです(お恥ずかしい話ですが、私はこの事実に気づくまでに結構時間がかかりました😞)。
定義に立ち戻ると、統計量とは、標本を要約した値のことでした。では、十分統計量とは、「どのように」標本を要約したものなのでしょうか。後々詳しい定義等は述べますが、十分統計量は一言で言うと、母数の情報を十分に保持している統計量のことです。言い換えると、母数の推定に必要な情報を落とすことなく、標本を要約している統計量ということができます。
十分統計量を以前に勉強された方はわかると思いますが、十分統計量は、その十分統計量を一対一変換した統計量も十分統計量になります。なぜなら、母数に関する情報が一対一変換で変わらないからです。また、極端な話をすると、標本全てを取ってきて、これが十分統計量だと言っても良い訳です(母数推定の情報を全て持っているから)。この辺りも十分統計量を理解しづらくしている原因だと思います。
少し余談ですが、「じゃあ、どんな十分統計量がいいの?」という疑問が出てくると思います。そこで完備十分統計量のような概念が出てくる訳です。
次のセクションから、十分統計量について、一般的に教科書等で書かれているような説明をしていきます。上記の直感的な理解を意識してもらえると、頭に入って来やすいのかなと思います。
十分統計量とは?
一般的な統計学の教科書では、十分統計量は以下のように定義されています。
定義
パラメータ$\theta$を持つ確率分布からの標本$\textbf{X}=(X_1, X_2, \ldots, X_n)$を用いて計算される統計量$T(\textbf{X})$が、次の式を満たすとき、統計量$T(\textbf{X})$を十分統計量と定義する。
P(\mathbf{X}=\mathbf{x} | T(\textbf{X})=t ; \theta) = P(\mathbf{X}=\mathbf{x} | T(\textbf{X})=t)
つまり、統計量$T(\textbf{X})$が与えられたもとでの、標本$\textbf{X}$の条件付き確率分布が、分布のパラメータ$\theta$に依存しないとき、統計量$T(\textbf{X})$を十分統計量と呼ぶ。
以上が数学的な定義なのですが、もっと噛み砕いて説明してみます。
定義式の両辺を見比べてみると、異なるのは、パラメータ$\theta$の有無ですね。このパラメータ$\theta$の有り無しに関わらず、$\textbf{X}$の条件付き分布が同じと言っているのですから、統計量$T(\textbf{X})$はパラメータ$\theta$の情報を「十分に」持っていると解釈することができます。
これをさらに直感的に理解するために、具体例をいくつか見ていきましょう。
十分統計量を具体例から理解する
ベルヌーイ分布の例
ここでは、ベルヌーイ分布のパラメータ$\theta$をサンプルから推定する状況を考えましょう。ベルヌーイ分布なので、表が出る確率が$\theta$、裏が出る確率が$1-\theta$である試行をイメージしてください。
今、このベルヌーイ分布から$n$個の標本$\textbf{X}=(X_1, X_2, \ldots, X_n)$が得られたとします。これらの標本から、統計量として$T(\textbf{X})=\sum_{i=1}^n X_i$を考えます(表が出た回数に対応)。実はこの統計量$T(\textbf{X})$はパラメータ$\theta$の十分統計量となります。なぜかと言うと、表が出た回数さえ、分かってしまえば、パラメータ$\theta$の情報を十分に特定できるためです。別の言い方をしてみましょう。表が出た回数だけ考えるということは、逆に言えば、何回目が表(裏)であったかと言う情報を落としているということです。しかし、直感的にもわかる通り、パラメータ$\theta$(表が出る確率)を特定するのには、$n$回中、何回表が出たかが分かればよく、何回目が表(裏)だったかという情報は不必要ですね。
この直感が正しいことを、上記の数学的な定義と照らし合わせて確認しましょう。
パラメータ$\theta$を所与としたとき、$T(\textbf{X})=t$で条件付けた標本$\textbf{X}$の分布は、
\begin{align}
P(\textbf{X}=\textbf{x} | T(\textbf{X})=t ; \theta)
\end{align}
と書けます。次に条件付き確率の定義から、上式は、
\begin{align}
\frac{P(\textbf{X}=\textbf{x}, T(\textbf{X})=t ; \theta)}{P(T(\textbf{X})=t ; \theta)}
\end{align}
と書き換えることができます。ここで、分子はベルヌーイ分布から独立に得られたサンプルの同時分布なので、ベルヌーイ分布の確率関数の積として書けます。分母は、表が出る回数の確率より、二項分布$B(n,\theta)$に従います。これらを踏まえて式変形をすると、
\begin{align}
\frac{\theta^t(1-\theta)^{n-t}}{_nC_t\theta^t(1-\theta)^{n-t}} = \frac{1}{_nC_t}
\end{align}
となります。つまり、$P(\textbf{X}=\textbf{x} | T(\textbf{X})=t ; \theta)=\frac{1}{_nC_t}$であり、統計量$T(\textbf{X})$が与えられたとき、標本$\textbf{X}$の条件付き分布は$\theta$に依らないことがわかります。つまり、統計量$T(\textbf{X})$が$\theta$の情報を十分に保持しているということができます。
連続一様分布の例
次に連続一様分布$U(a,b)$の例を考えてみます。今まで、$\theta$はスカラー値を扱っていましたが、ベクトル値でも同じように扱えます。ここでは、連続一様分布の両端に対応するパラメータ$a$、$b$を、$\theta=(a,b)$のようにベクトルとして書きます。
ベルヌーイ分布の例と同様に、まず、連続一様分布$U(a,b)$から独立に標本$\textbf{X}=(X_1, X_2, \ldots, X_n)$を得られたとします。このとき、統計量$T(\textbf{X})=(\max_{1 \leq i \leq n}{X_i}, \min_{1 \leq i \leq n}{X_i})$は、パラメータ$\theta=(a,b)$の十分統計量になります。つまり、パラメータ$a(b)$を推定するのに、標本の全ては必要ではなく、標本の最大値(最小値)さえ分かってしまえば十分であるということを主張しています。これは直感とも合いますね。
これも数学的に確かめてみましょう。パラメータ$\theta=(a,b)$を所与としたとき、統計量$T(\textbf{X})$で条件付けた標本$\textbf{X}$の同時確率密度関数は、
\begin{align}
f_n(\textbf{X}=\textbf{x} | T(\textbf{X})=(\max_{1 \leq i \leq n}{x_i}, \min_{1 \leq i \leq n}{x_i}) ; \theta)
\end{align}
と書けます。今、得られている標本$\textbf{X}$の全ての観測値$x_i$が$\max_{1 \leq i \leq n}{x_i}$,と$\min_{1 \leq i \leq n}{x_i}$の間にあるため、$T(\textbf{X})$で条件付けされた、標本$\textbf{X}$の分布は、一様分布$U(\max_{1 \leq i \leq n}{x_i}, \min_{1 \leq i \leq n}{x_i})$に従います。そのため、上式は、
\begin{align}
\prod_{k=1}^n \frac{1}{\max_{1 \leq i \leq n}{x_i} - \min_{1 \leq i \leq n}{x_i}}
= \left( \frac{1}{\max_{1 \leq i \leq n}{x_i} - \min_{1 \leq i \leq n}{x_i}} \right) ^n
\end{align}
と書き換えられます。これより、計算結果が$\theta$に依存しないことが確認できました。
お気づきの方もいると思いますが、一様分布の例では、条件付き確率分布を定義通り計算しませんでした。なぜかというと、定義通りに計算しようとすると、分母において、$T(\textbf{X})=(\max_{1 \leq i \leq n}{x_i}, \min_{1 \leq i \leq n}{x_i})$の確率分布を計算しなければならず、計算が煩雑になるからです。
このように、条件付き確率分布の計算は困難なことが多いです。
そこで一般的には、十分統計量の定義と同値な定理を用いて、十分統計量かどうかを判断することが多いです。それが次のセクションで紹介するフィッシャー-ネイマンの分解定理です。
フィッシャー-ネイマンの分解定理
フィッシャー-ネイマン分解定理が成り立つことが、十分統計量であることの必要十分条件となります。この分解定理の利点は、標本に対する同時分布や、十分統計量かどうかチェックしたい統計量の分布を計算しなくてもよくなることです。
定義
パラメータ$\theta$を持つ分布から、標本$\textbf{X}=(X_1, X_2, \ldots, X_n)$が得られているとする。このとき、標本から計算される統計量$T(\textbf{X})$が十分統計量であるであるための必要十分条件は、標本$\textbf{X}$の同時密度関数$f_n(\textbf{x};\theta)$が次式のように表現できることです。
\begin{align}
f_n(\textbf{x};\theta) = g(T(\textbf{x});\theta)h(\textbf{x})
\end{align}
ただし、関数$g$, $h$は非負関数である。もちろんこの定義から分かる通り、$T(\textbf{x})$を一対一変換した統計量も十分統計量となります。
上記定義では、密度関数という言葉を用いていますが、もちろん離散型の同時確率分布に対しても成り立ちます。以降も説明を簡潔にするために、離散型分布に対しても密度関数という表記をしますので、注意してください。
フィッシャー-ネイマンの分解定理の数式を言葉で表現すると次のようになります。
標本$\textbf{X}$の同時密度関数が、「統計量$T$と$\theta$のみの変数からなる関数$g$」と「変数$\textbf{x}$を持つ関数$h$」との積に分解できる
同時密度関数の計算には様々な文字が出てくるので、何が定数で何が変数なのかが明確になっていないと、うまく分解定理を使いこなすことができないので、注意しましょう。$T$が$\textbf{x}$の関数であることも分かりにくくなっている原因だと思います。あくまで、関数$g$は$T$と$\theta$の関数だということを意識しましょう。
ここからは、上述した2つの同じ例に対して、今度は分解定理を利用して、十分統計量かどうかを考えてみましょう。
ベルヌーイ分布の例
先程の例と同じ条件設定において、ベルヌーイ分布の同時密度関数は、
\begin{align}
f_n(\textbf{x};\theta) & = \prod_{i=1}^n \theta^{x_i} (1 - \theta)^{1-x_i} \\
&= \theta^{\sum_{i=1}^n x_i}(1-\theta)^{n- \sum_{i=1}^n x_i}\\
& = \theta^{T(\textbf{x})}(1-\theta)^{n- T(\textbf{x})}
\end{align}
と計算できます。ここで、$g(T(\textbf{x});\theta)=\theta^{T(\textbf{x})}(1-\theta)^{n- T(\textbf{x})}$, $h(\textbf{x})=1$とおくと、分解定理が成り立ちます。従って、統計量$T(\textbf{X})$は十分統計量であることがわかります。
上記のように、$h(\textbf{x})=1$としてもアリです。
連続一様分布の例
先程の例と同じ条件設定において、連続一様分布の同時密度関数は、
\begin{align}
f_n(\textbf{x};\theta) & = \prod_{i=1}^n \frac{1}{b-a} \textbf{1}_{a \leq x_i \leq b}\\
&= \left ( \frac{1}{b-a} \right )^n \textbf{1}_{a \leq x_i \leq b}\\
&= \left ( \frac{1}{b-a} \right )^n \textbf{1}_{a \leq \min_{i}x_i }\textbf{1}_{\max_i x_i \leq b }\\
\end{align}
と計算できます。ただし、$\textbf{1}_A$は、不等式$A$が成り立つとき1、成り立たないとき0をとる関数です。
ここで、$g(T(\textbf{x});\theta=(a,b))=\left ( \frac{1}{b-a} \right )^n \textbf{1}_{a \leq \min_ix_i } \mathbf{1} _{\max_i x_i \leq b }$、$h(\textbf{x})=1$とおくと、分解定理が成り立ちます($g$が$a$,$b$,$\min x_i$,$\max x_i$のみを変数として持つ関数になっていますね)。従って、統計量$T(\textbf{X})=(\max _{1 \leq i \leq n}{X_i}, \min _{1 \leq i \leq n}{X_i})$は十分統計量であることがわかります。
参考文献
終わりに
この記事に関してご意見や指摘がございましたら、お気軽にコメント欄までお知らせください。よろしくお願いいたします。