確率積分変換の直感的解釈
統計検定1級の学習の中で、2019年11月の統計応用社会科学問2には以下のような問題文が掲載されていました。
確率変数 $X ≥ 0$ は連続型で、その累積分布関数を $F(x)$、確率密度関数を $f(x)$ とし、
$u = F(x)$ ($F(x)$ は $0 < F(x) < 1$ で狭義単調増加) とする。
この時、 (2) 確率変数 $U = F(X)$ は区間 $(0,1)$ 上の一様分布に従うことを示せ。
具体的な確率分布が一度も指定されていないにもかかわらず、いきなり$F(X)$が一様分布であると特定できるのはかなり不思議ではないでしょうか?
結論から言うと、これは 「$ X $ の累積分布中における $ X $ の順位は一様分布になる」
という言葉に置き換えることができます。
- 「$ X $ が値をとらない範囲では $ X $ は値をとらない
- 「$ X $ が値をほとんど存在しない範囲では $ X $はほとんど存在しない」
- 「$ X $ が固まっている範囲では $ X $ は固まって存在している」
↓↓↓ - どんな分布であっても、
「$ X $ の累積分布(=順位)中における $ X $ 自身の位置(=順位)は一様分布になる」
ということを言っているに他なりません。
以降は、世間一般に 確率積分変換 (Probability Integral Transform) と呼ばれる上記の定理の証明と、その直感的な意味について解説します。
1. 確率積分変換の定理
まずは証明から始めます。
任意の $ u_0 $ ($ 0 \le u_0 \le 1 $)について、
$ F_X(x) $ が単調増加かつ連続であるため、逆関数 $ F_X^{-1}(u) $ が存在します。
このとき、
$$
\begin{align}
P(U \le u_0) = P\bigl(F_X(X) \le u_0\bigr) = P\bigl(X \le F_X^{-1}(u_0)\bigr) = F_X\bigl(F_X^{-1}(u_0)\bigr) = u_0.
\end{align}
$$
以上より、$ U $ の累積分布関数は
$$
P(U \le u_0) = u_0
$$
となり、一様分布の定義と一致します。
数式上は、一様分布であることが一行で出せます
しかし、この説明を聞いて、直感的に腑に落ちるでしょうか?
(腑に落ちたならばこの記事をこれ以上読み進める必要はありません)
ということで、以下にバスの待ち時間がポアソン分布に従うとした場合の例について挙げていきたいと思います。
2. 具体例: バスの到着待ち時間の場合
ここでは、バスの到着待ち時間を表す連続型確率変数 $ X $ が、パラメータ $ \lambda = 0.2 $ の 指数分布 に従うと仮定します。
このときの累積分布関数は $F_X(x) = 1 - \exp(-0.2x) \quad (x \ge 0)$と定義されます。
以下の表は、待ち時間 $ x $ [分] と、それに対応する$u = F_X(x)$の値および順位(パーセンタイル)を示しています。
待ち時間 $ x $ [分] | $ u = F_X(x) $ の値 | 順位(パーセンタイル、$ u = F_X(x) $ を % で表現) |
---|---|---|
0 | $$ u = F_X(0) = 1 - \exp(-0.2 \times 0) = 1 - \exp(0) = 0 $$ | 0% |
2.5 | $$ u = F_X(2.5) = 1 - \exp(-0.2 \times 2.5) = 1 - \exp(-0.5) \approx 0.3935 $$ | 約39.35% |
5 | $$ u = F_X(5) = 1 - \exp(-0.2 \times 5) = 1 - \exp(-1) \approx 0.6321 $$ | 約63.21% |
7.5 | $$ u = F_X(7.5) = 1 - \exp(-0.2 \times 7.5) = 1 - \exp(-1.5) \approx 0.7769 $$ | 約77.69% |
10 | $$ u = F_X(10) = 1 - \exp(-0.2 \times 10) = 1 - \exp(-2) \approx 0.8647 $$ | 約86.47% |
15 | $$ u = F_X(15) = 1 - \exp(-0.2 \times 15) = 1 - \exp(-3) \approx 0.9502 $$ | 約95.02% |
20 | $$ u = F_X(20) = 1 - \exp(-0.2 \times 20) = 1 - \exp(-4) \approx 0.9817 $$ | 約98.17% |
この表からも分かるように、固定の待ち時間 $ x $ に対して計算した $ u = F_X(x) $は、例えば $ x = 2.5 $ のとき $ u \approx 0.3935 $、$ x = 5 $ のとき $ u \approx 0.6321 $ と、非線形に増加します。
しかし、ランダムに選んだバスの待ち時間 $ X $ に対して $u = F_X(X) $、すなわち $ X $ の累積分布中における $ X $ の順位は、以下のように$ 0 $ から $ 1 $ の間で均等に現れるため、一様分布 $ \mathrm{Uniform}(0,1) $ に従います。
サンプル | 待ち時間 $( X )$ [分] | $ F_X(X) = 1 - \exp(-0.2X) $ | 順位 (パーセンタイル) |
---|---|---|---|
1 | 3.1 | 0.46 | 46% |
2 | 7.8 | 0.79 | 79% |
3 | 1.2 | 0.21 | 21% |
4 | 5.0 | 0.63 | 63% |
5 | 10.5 | 0.88 | 88% |
6 | 0.8 | 0.15 | 15% |
7 | 4.3 | 0.58 | 58% |
8 | 6.7 | 0.74 | 74% |
9 | 9.0 | 0.83 | 83% |
10 | 2.5 | 0.39 | 39% |
これは、
- 「$ X $ が値をとらない範囲では $ X $ は値をとらない」
- 「$ X $ が値をほとんど存在しない範囲では $ X $はほとんど存在しない」
- 「$ X $ が固まっている範囲では $ X $ は固まって存在している」
↓↓↓ - どんな分布であっても、
「$ X $ の累積分布(=順位)中における $ X $ 自身の位置(=順位)は一様分布になる」
ということを言っているに他なりません。
3. 要するに
歪んだレンズにとって歪んだ対象こそが綺麗に見える、ということですね。
4. 参考動画
以下のシミュレーション動画も参考にしてください
英語版ですが、英語がわからなくても問題なくわかると思います。
$X$が密にあつまる$f(x)$の山場では$F(x)$は急な勾配となっており$F(X)$は分散され、相殺されることによって全体は一様分布となっています。
Universality of the Uniform/Probability Integral Transform (YouTube)