十分統計量とは
十分統計量(Sufficient Statistic)は、確率モデルにおいて特定のパラメータ(またはパラメータのセット)を推定する際に「十分な」情報を提供する統計量です。具体的には、サンプルデータ $$ X = (X_1, X_2, \ldots, X_n) $$ が与えられた場合、十分統計量 $T(X)$ があれば、この $T(X)$ の値を用いてパラメータの推定が可能であり、その推定には $X$ の他の情報は必要ない、ということです。
因子分解の定理(Factorization Theorem)
十分統計量の存在性と求め方は、多くの場合「因子分解の定理」に基づいています。この定理によれば、ある統計量$ T(X)$ が十分統計量であるための必要十分条件は、確率密度関数(pdf、連続変数の場合)または確率質量関数(pmf、離散変数の場合)が以下のように因子分解できることです。
$$
f(x_1, x_2, \ldots, x_n; \theta) = g(T(x_1, x_2, \ldots, x_n); \theta) \times h(x_1, x_2, \ldots, x_n)
$$
ここで $g$ は $T$ と $θ$ の関数、$ h $ は $x_1, x_2, ..., x_n$ の関数です。このとき、$T(X)$ は$ θ$ の推定に必要な全ての情報を含んでいるとされ、十分統計量と呼ばれます。
ちょっと難しいと感じた場合は
- ざっくりとした十分統計量の説明:十分統計量とは、データの「要約」であり、その要約を使えば元のデータ全体を使わなくても、求めたい情報(平均値など)を同じくらい正確に推定できるものです。
- 「はじめての統計学」さまの十分統計量についてのYouTube動画が非常にわかりやすいです。こちらのチャンネルの関連動画を一通り見ると、十分統計量の基礎的な理解ができると考えられます。周辺知識の「統計量」「確率分布」などについても丁寧に説明されています。
- まずは、問題演習から始めることも手だと思います。下記の例題たちが参考になれば嬉しいです。
十分統計量の例題
十分統計量を求める方針
-
確率分布の確認: 対象とする確率分布(正規分布、ポアソン分布など)の確率密度関数(pdf)または確率質量関数(pmf)を特定します。
-
同時確率関数の計算: サンプルが独立同分布(i.i.d.)である場合、その同時確率密度関数または確率質量関数を計算します。これは通常、個々のpdfまたはpmfの積になります。
-
因子分解: 同時確率関数をパラメータに依存する部分と依存しない部分に分ける形で因子分解します。
-
十分統計量の識別: 因子分解から得られた式を解析し、パラメータに依存する部分がどの統計量(例:サンプル平均、サンプル合計など)に依存するかを見つけます。フィッシャーネイマンの分解定理により、この統計量が十分統計量となります。また、一般に十分統計量は1つに定まりません。
以後の例題は全て、上記の方針に従ってシステマティックに解いていきます。
例題1. ベルヌーイ分布の十分統計量を求めよ
確率分布の確認
確率変数 $X_1, X_2, \ldots, X_n $ が成功確率 $p $ のベルヌーイ分布$\text{Bernoulli}(p) $から独立同分布(i.i.d.)で生成されたとします。このときの確率質量関数(pmf)は次のように表されます。
$$
P(x_i; p) = p^{x_i} (1-p)^{1-x_i}
$$
ここで $x_i $ は $0$ または $ 1 $ です。
同時確率質量関数
独立同分布であるため、 $n $ 個のデータ点に対する同時確率質量関数は個々の確率質量関数の積となります。
$$P(x_1, x_2, \ldots, x_n; p) = \prod_{i=1}^{n} p^{x_i} (1-p)^{1-x_i}$$
因子分解
次に、この同時確率質量関数を因子分解の形にまとめます。
$$\begin{aligned}
P(x_1, x_2, \ldots, x_n; p) &= p^{\sum_{i=1}^{n} x_i} (1-p)^{n-\sum_{i=1}^{n} x_i} = g(T(x_1, x_2, \ldots, x_n); p) \times h(x_1, x_2, \ldots, x_n)
\end{aligned}$$
ここで、$$T(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{n} x_i $$ $$g(T; p) = p^{T} (1-p)^{n-T} $$ $$h(x_1, x_2, \ldots, x_n) = 1 $$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$ \sum_{i=1}^{n} x_i $ がベルヌーイ分布 $\text{Bernoulli}(p) $ の十分統計量であることが示されました。
例題2. 二項分布の十分統計量を求めよ
確率分布の確認
確率変数 $ X $ が試行回数 $ n $ と成功確率 $ p $ の二項分布$ \text{Binomial}(n, p) $から生成されたとします。このときの確率質量関数(pmf)は次のように表されます。
$$
P(X=k; n, p) = \binom{n}{k} p^k (1-p)^{(n-k)}
$$
因子分解
次に、この確率質量関数を因子分解の形にまとめます。
$$
P(x_1, x_2, \ldots, x_N; p) = \prod_{i=1}^{N} \binom{n}{x_i} p^{x_i} (1-p)^{(n-x_i)} = g(T(x_1, x_2, \ldots, x_N); p) \times h(x_1, x_2, \ldots, x_N)
$$
ここで、$$ T(x_1, x_2, \ldots, x_N) = \sum_{i=1}^{N} x_i $$ $$ g(T; p) = p^{T} (1-p)^{(N \times n - T)} $$ $$ h(x_1, x_2, \ldots, x_N) = \prod_{i=1}^{N} \binom{n}{x_i} $$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$ \sum_{i=1}^{N} x_i $ が二項分布 $ \text{Binomial}(n, p) $ の十分統計量であることが示されました。
例題3. ポアソン分布の十分統計量を求めよ
ポアソン分布 $ \text{Poisson}(\lambda) $ の場合、十分統計量は成功回数の合計 $ \sum_{i=1}^{n} x_i $ です。
確率分布の確認
確率変数 $ X_1, X_2, \ldots, X_n $ が平均 $ \lambda $ のポアソン分布から独立同分布(i.i.d.)で生成されたとします。このときの確率質量関数(pmf)は次のように表されます。
$$
P(x_i; \lambda) = \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}
$$
ここで $ x_i $ は非負の整数です。
同時確率質量関数
独立同分布であるため、 $n$ 個のデータ点に対する同時確率質量関数は個々の確率質量関数の積となります。
$$
P(x_1, x_2, \ldots, x_n; \lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}
$$
因子分解
次に、この同時確率質量関数を因子分解の形にまとめます。
$$
P(x_1, x_2, \ldots, x_n; \lambda) = \frac{\lambda^{\sum_{i=1}^{n} x_i} e^{-n\lambda}}{\prod_{i=1}^{n} x_i!} = g(T(x_1, x_2, \ldots, x_n); \lambda) \times h(x_1, x_2, \ldots, x_n)
$$
ここで、$$ T(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{n} x_i $$ $$ g(T; \lambda) = \lambda^T e^{-n\lambda} $$ $$ h(x_1, x_2, \ldots, x_n) = \frac{1}{\prod_{i=1}^{n} x_i!} $$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$ \sum_{i=1}^{n} x_i $ がポアソン分布 $ \text{Poisson}(\lambda) $ の十分統計量であることが示されました。
例題4. 幾何分布の十分統計量を求めよ
確率分布の確認
確率変数 $ X_1, X_2, \ldots, X_n $ が成功確率 $ p $ の幾何分布$\text{Geom}(p) $から独立同分布(i.i.d.)で生成されたとします。このときの確率質量関数(pmf)は次のように表されます。
$$
P(x_i; p) = (1-p)^{x_i} \times p
$$
同時確率質量関数
独立同分布であるため、$ n $ 個のデータ点に対する同時確率質量関数は個々の確率質量関数の積となります。
$$
P(x_1, x_2, \ldots, x_n; p) = \prod_{i=1}^{n} (1-p)^{x_i} \times p
$$
因子分解
次に、この同時確率質量関数を因子分解の形にまとめます。
$$
P(x_1, x_2, \ldots, x_n; p) = p^n \times (1-p)^{\sum_{i=1}^{n} (x_i)} = g(T(x_1, x_2, \ldots, x_n); p) \times h(x_1, x_2, \ldots, x_n)
$$
ここで、 $$ T(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{n} x_i $$ $$ g(T; p) = p^n \times (1-p)^{T} $$ $$ h(x_1, x_2, \ldots, x_n) = 1 $$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$ \sum_{i=1}^{n} x_i $ が幾何分布 $ \text{Geom}(p) $ の十分統計量であることが示されました。
例題5. 指数分布の十分統計量を求めよ
確率分布の確認
確率変数 $X_1, X_2, \ldots, X_n$ が平均が $\frac{1}{\lambda}$ の指数分布$\text{Exp}(\lambda)$から独立同分布(i.i.d.)で生成されたとします。このときの確率密度関数(pdf)は次のように表されます。
$$
f(x_i; \lambda) = \lambda e^{-\lambda x_i}
$$
ここで $x_i$ は $0$ 以上の実数です。
同時確率密度関数
独立同分布であるため、$n$ 個のデータ点に対する同時確率密度関数は個々の確率密度関数の積となります。
$$
f(x_1, x_2, \ldots, x_n; \lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i}
$$
因子分解
次に、この同時確率密度関数を因子分解の形にまとめます。
$$
f(x_1, x_2, \ldots, x_n; \lambda) = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i} = g(T(x_1, x_2, \ldots, x_n); \lambda) \times h(x_1, x_2, \ldots, x_n)
$$
ここで、$$T(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{n} x_i$$ $$g(T; \lambda) = \lambda^n e^{-\lambda T}$$ $$h(x_1, x_2, \ldots, x_n) = 1$$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$\sum_{i=1}^{n} x_i$ が指数分布 $\text{Exp}(\lambda)$ の十分統計量であることが示されました。
例題6. 正規分布の十分統計量を求めよ
平均 $ \mu $ 、分散 $ \sigma^2 $ の正規分布 $ \mathcal{N}(\mu, \sigma^2) $ の十分統計量を考えます。
確率分布の確認
確率変数 $ X_1, X_2, \ldots, X_n $ が平均 $ \mu $ と分散 $ \sigma^2 $ の正規分布から独立同分布(i.i.d.)で生成されたとします。このときの確率密度関数(pdf)は次のように表されます。
$$
f(x_i; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)
$$
同時確率密度関数
独立同分布であるため、$ n $ 個のデータ点に対する同時確率密度関数は個々の確率密度関数の積となります。
$$
f(x_1, x_2, \ldots, x_n; \mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)=
\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right)^n \exp\left(-\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{2\sigma^2}\right)
$$
因子分解
次に、この同時確率密度関数を因子分解の形にまとめます。まず、指数部分を展開します。
$$
\begin{aligned}
\sum_{i=1}^{n}(x_i - \mu)^2 &= \sum_{i=1}^{n} x_i^2 - 2\mu \sum_{i=1}^{n} x_i + n\mu^2
\end{aligned}
$$
これを元の同時確率密度関数に代入して、因子分解の形にまとめます。
$$
\begin{aligned}
f(x_1, x_2, \ldots, x_n; \mu, \sigma^2) = \left(\frac{1}{\sqrt{2\pi \sigma^2}}\right)^n \exp\left(-\frac{n\mu^2 - 2\mu\sum_{i=1}^{n}x_i + \sum_{i=1}^{n}x_i^2}{2\sigma^2}\right) \
= \left(\frac{1}{\sqrt{2\pi \sigma^2}}\right)^n \exp\left(-\frac{n\mu^2}{2\sigma^2} + \frac{\mu\sum_{i=1}^{n}x_i}{\sigma^2} - \frac{\sum_{i=1}^{n}x_i^2}{2\sigma^2}\right)
= g(T_1, T_2; a, b) \times h(x_1, x_2, \ldots, x_n)
\end{aligned}
$$
ここで、
$$ T_1 = \sum_{i=1}^{n} x_i $$ $$ T_2 = \sum_{i=1}^{n} x_i^2 $$
$$
h(x_1, x_2, \ldots, x_n) = 1
$$
$$
g(T_1, T_2; \mu, \sigma^2) = \left(\frac{1}{\sqrt{2\pi \sigma^2}}\right)^n \exp\left(-\frac{n\mu^2 - 2\mu T_1 + T_2}{2\sigma^2}\right)
$$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$ \sum_{i=1}^{n} x_i $ 、$ \sum_{i=1}^{n} x_i^2 $ が正規分布 $ \mathcal{N}(\mu, \sigma^2) $ の十分統計量であることが示されました。
例題7. 一様分布の十分統計量を求めよ
最小値 $ a $ 、最大値 $ b $ の一様分布 $ \text{Uniform}(a, b) $ の十分統計量を考えます。
確率分布の確認
確率変数 $ X_1, X_2, \ldots, X_n $ が $ a $ と $ b $ の間の一様分布から独立同分布(i.i.d.)で生成されたとします。このときの確率密度関数(pdf)は次のように表されます。
$$
f(x_i; a, b) = \frac{1}{b - a} \quad (a \leq x_i \leq b)
$$
同時確率密度関数
独立同分布であるため、$ n $ 個のデータ点に対する同時確率密度関数は個々の確率密度関数の積となります。
$$
f(x_1, x_2, \ldots, x_n; a, b) = \left(\frac{1}{b - a}\right)^n \mathbf{1}_{{a \leq x_1, x_2, \ldots, x_n \leq b}}
$$
ここで、指示関数(Indicator function)$\mathbf{1}_{{a \leq x_1, x_2, \ldots, x_n \leq b}}$は、条件$a \leq x_1, x_2, \ldots, x_n \leq b$が満たされる場合に1を取り、それ以外の場合には0を取る関数です。
因子分解
次に、この同時確率密度関数を因子分解の形にまとめます。
$$
f(x_1, x_2, \ldots, x_n; a, b) = g(T_1, T_2; a, b) \times h(x_1, x_2, \ldots, x_n)
$$
ここで、
$$T_1 = \min(x_1, x_2, \ldots, x_n)$$ $$T_2 = \max(x_1, x_2, \ldots, x_n)$$ $$g(T_1, T_2; a, b) = \left(\frac{1}{b - a}\right)^n \mathbf{1}_{{a \leq T_1 \leq T_2 \leq b}}$$ $$h(x_1, x_2, \ldots, x_n) = 1$$ となります。
十分統計量の識別
フィッシャーネイマンの分解定理により、$ \min(x_1, x_2, \ldots, x_n) $ と $ \max(x_1, x_2, \ldots, x_n) $ が一様分布 $ \text{Uniform}(a, b) $ の十分統計量であることが示されました。
References