近所の緑地でスズメバチを見掛け、その数え方について考える様になりました。
- 統計学上の「十分に長い単位期間」として1週間を設定。その間に平均1匹観測されるかどうかくらいだったら「近くにスズメバチの巣はない」と考える。
- 平均2匹以上観測される様だったら「近くにスズメバチの巣がありそうだ」、5匹~10匹観測される様だったら「緑地内にスズメバチの巣がありそうだ」と考える。
念頭に置いたのは指数分布とポアソン分布。想定出現率λは上掲の最低条件設定から1匹を下回らないものとし(λ≧1)、その一方で実際の観測数xは0匹もあると考えます(x≧0)。
指数分布Exp(x;λ)=λe^{-λx}(λ≧1,x≧0)
ポアソン分布Po(x;λ)=\frac{e^{-λ}λ^x}{x!}(λ≧1,x≧0)
なお、ここでいう「十分に長い単位期間」は、とりあえず以下の考え方に従って「1秒に対する1分(60倍)」あるいは「1分にたいする1時間(60倍)」くらいの頻度と想定しています。
60進法こそ「e進数(ネイピア進数)」概念の大源流?
観測数が2匹未満の場合(0匹か1匹)
指数分布Exp(x;λ)とポアソン分布Po(x;λ)は想定観測数が1匹の時(λ=1)、「スズメバチが1匹ずつ観測される間隔」を表す前者と「特定の観測期間に平均1匹が観測される状態」を表す後者の確率分布がピッタリと重なり合います。これをComputerRPGにおけるモンスターの出現率(ポップ率)に擬えて捉えてみましょう。
- ポアソン分布では想定出現率1の時(λ=1)、実際の遭遇数が0だった場合(x=0)と実際の遭遇数が1だった場合(x=1)の確率がどちらも$e^{-1}=\frac{1}{e}=0.3678794$。なのでこの区間の確率分布を「(コインを投げて表裏を出す様に)「遭遇成功率」と「遭遇失敗率」がそれぞれ$\frac{1}{2}$ずつと捉え、その情報エントロピー(平均情報量)を1と設定する。
H(P)=-\sum_{i=1}^nP_ip \log_eP'_i=-\frac{1}{2}\log_e \frac{1}{e}-\frac{1}{2}\log_e \frac{1}{e}=\frac{1}{2}+\frac{1}{2}=1
- 指数分布ではx=0の時の確率が1、x=0の時の確率が$\frac{1}{e}$となる。指数関数はいわゆる「生存曲線(ワイブル分布における「偶発故障期間」)」でもあるので、その確率推移は「モンスターと1匹も遭遇しなければ全匹手付かず、1匹と邂逅したなら残りは$1-\frac{1}{e}$」と言い換えられよう。
ワイブル分布とバスタブ曲線
こうイメージすると全体像が非常にスッキリすると思いませんか?
1匹も観測されない場合(x=0)
指数分布
Exp(x=0;λ=1)=λe^{-λx}=1*e^{-1*0}=e^0=1
Exp(x=0;λ=2)=λe^{-λx}=1*e^{-2*0}=e^0=1
Exp(x=0;λ=3)=λe^{-λx}=1*e^{-3*0}=e^0=1
Exp(x=0;λ=4)=λe^{-λx}=1*e^{-4*0}=e^0=1
Exp(x=0;λ=5)=λe^{-λx}=1*e^{-5*0}=e^0=1
まさしくベイズ統計学でいうところの「理由不十分の原理」の成立条件。想定される事象に均等に確率を割り振る事しか出来ません。イメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
ポアソン分布
Po(x=0;λ=1)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-1}1^0}{0!=1}=e^{-1}=0.3678794
Po(x=0;λ=2)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-2}2^0}{0!=1}=e^{-2}=0.1353353
Po(x=0;λ=3)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-3}3^0}{0!=1}=e^{-3}=0.04978707
Po(x=0;λ=4)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-4}4^0}{0!=1}=e^{-5}=0.01831564
Po(x=0;λ=5)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-5}5^0}{0!=1}=e^{-5}=0.006737947
1匹しか観測されない場合(x=1)
指数分布
Exp(x=1;λ=1)=λe^{-λx}=1*e^{-1*1}=e^{-1}=0.3678794
Exp(x=1;λ=2)=λe^{-λx}=2*e^{-2*1}=2e^{-2}=0.2706706
Exp(x=1;λ=3)=λe^{-λx}=3*e^{-3*1}=3e^{-3}=0.1493612
Exp(x=1;λ=4)=λe^{-λx}=4*e^{-4*1}=4e^{-4}=0.07326256
Exp(x=1;λ=5)=λe^{-λx}=5*e^{-5*1}=5e^{-5}=0.03368973
やはりイメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
「まるで水平線の彼方に消える様に」確率が減衰していくイメージが掴めたでしょうか?
ポアソン分布
Po(x=1;λ=1)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-1}1^1}{1!=1}=e^{-1}=0.3678794
Po(x=1;λ=2)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-2}2^1}{1!=1}=2e^{-2}=0.1353353
Po(x=1;λ=3)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-3}3^1}{1!=1}=3e^{-3}=0.04978707
Po(x=1;λ=4)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-4}4^1}{1!=1}=4e^{-4}=0.01831564
Po(x=1;λ=5)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-5}5^1}{1!=1}=5e^{-5}=0.006737947
やはりイメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
観測数が2匹~3匹の場合(x=(2,3))
この範囲までならなんとか直感的に幾何学的にイメージする事が出来ますね。
【Token】二項分布(Binomial Distribution)の平均と分散と最尤値
指数分布
観測区間が$\frac{1}{2}$や$\frac{1}{3}$に圧縮されて、確立分布もネイピア数eの尺度に合わせて射影されてる感じ?
観測数が2匹の場合(x=2)
射影範囲はおそらく$\frac{1}{2^2}=\frac{1}{4}$。
Exp(x=2;λ=1)=λe^{-λx}=1*e^{-1*2}=e^{-2}=0.1353353
Exp(x=2;λ=2)=λe^{-λx}=2*e^{-2*2}=2e^{-4}=0.03663128
Exp(x=2;λ=3)=λe^{-λx}=3*e^{-3*2}=3e^{-6}=0.007436257
Exp(x=2;λ=4)=λe^{-λx}=4*e^{-4*2}=4e^{-8}=0.001341851
Exp(x=2;λ=5)=λe^{-λx}=5*e^{-5*2}=5e^{-10}=0.0002269996
やはりイメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
観測数が3匹の場合(x=2)
射影範囲はおそらく$\frac{1}{2^3}=\frac{1}{8}$。
Exp(x=3;λ=1)=λe^{-λx}=1*e^{-1*3}=e^{-3}=0.04978707
Exp(x=3;λ=2)=λe^{-λx}=2*e^{-2*3}=2e^{-6}=0.004957504
Exp(x=3;λ=3)=λe^{-λx}=3*e^{-3*3}=3e^{-9}=0.0003702294
Exp(x=3;λ=4)=λe^{-λx}=4*e^{-4*3}=4e^{-12}=可算範囲外
Exp(x=3;λ=5)=λe^{-λx}=5*e^{-5*3}=5e^{-15}=可算範囲外
やはりイメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
ポアソン分布
これ以降は「スズメバチがいる」のを疑う余地がありません。以降は次第に正規分布に近づいていき(情報エントロピーが0に漸近)、観測数5匹~10匹で「緑地内にスズメバチの図がある」事が確定的になっていきます。
観測数が2匹の場合(x=2)
Po(x=2;λ=1)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-1}1^2}{2!=2}=\frac{e^{-1}}{2}=0.3678794
Po(x=2;λ=2)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-2}2^2}{2!=2}=\frac{4e^{-2}}{2}=0.1353353
Po(x=2;λ=3)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-3}3^2}{2!=2}=\frac{9e^{-3}}{2}=0.04978707
Po(x=2;λ=4)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-4}4^2}{2!=2}=\frac{16e^{-4}}{2}=0.01831564
Po(x=2;λ=5)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-5}5^2}{2!=2}=\frac{25e^{-5}}{2}=0.006737947
やはりイメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
観測数が3匹の場合(x=3)
Po(x=3;λ=1)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-1}1^3}{3!=6}=\frac{e^{-1}}{6}=0.3678794
Po(x=3;λ=2)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-2}2^3}{3!=6}=\frac{4e^{-2}}{6}=0.1353353
Po(x=3;λ=3)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-3}3^3}{3!=6}=\frac{9e^{-3}}{6}=0.04978707
Po(x=3;λ=4)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-4}4^3}{3!=6}=\frac{16e^{-4}}{6}=0.01831564
Po(x=3;λ=5)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-5}5^3}{3!=6}=\frac{25e^{-5}}{6}=0.006737947
やはりイメージを助ける為、考え方として必ずしも正しくないのは承知の上で強引に円グラフに図示してみると…
観測数が5匹の場合(x=5)
Po(x=5;λ=1)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-1}1^5}{5!=120}=\frac{e^{-1}}{6}=0.003065662
Po(x=5;λ=2)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-2}2^5}{5!=120}=\frac{4e^{-2}}{6}=0.03608941
Po(x=5;λ=3)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-3}3^5}{5!=120}=\frac{9e^{-3}}{6}=0.1008188
Po(x=5;λ=4)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-4}4^5}{5!=120}=\frac{16e^{-4}}{6}=0.1562935
Po(x=5;λ=5)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-5}5^5}{5!=120}=\frac{25e^{-5}}{6}=0.1754674
Po(x=5;λ=6)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-6}6^5}{5!=120}=\frac{e^{-1}}{6}=0.1606231
Po(x=5;λ=7)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-7}2^7}{5!=120}=\frac{4e^{-2}}{6}=0.1277167
Po(x=5;λ=8)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-8}3^8}{5!=120}=\frac{9e^{-3}}{6}=0.09160366
Po(x=5;λ=9)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-9}9^3}{5!=120}=\frac{16e^{-4}}{6}=0.06072688
Po(x=5;λ=10)=\frac{e^{-λ}λ^x}{x!}=\frac{e^{-10}10^5}{5!=120}=\frac{25e^{-5}}{6}=0.03783327
情報エントロピー(平均情報量)の計算
さて、上では「スズメバチがいるかいないか分からない」状態を情報量1と設定してみました。つまりここでいう「0匹」は「いない」。「1匹」は「いる」に該当して匹数を問いません。
H(P)=-\sum_{i=1}^nP_ip \log_eP'_i=-\frac{1}{2}\log_e \frac{1}{e}-\frac{1}{2}\log_e \frac{1}{e}=\frac{1}{2}+\frac{1}{2}=1
それではこの情報量は観測匹数が増えるとどう変化するのでしょう?
- 観測数2匹
H(P)=-\frac{1}{2^2=4}\log_e \frac{1}{e^2}-\frac{3}{4}\log_e(1- \frac{1}{e^2})=0.5+0.1090601=0.6090601
正規化後の「いない」\frac{0.5}{0.6090601}=0.820937
正規化後の「いる」1-0.820937=0.179063
- 観測数3匹
H(P)=-\frac{1}{2^3=8}\log_e \frac{1}{e^3}-\frac{7}{8}\log_e(1- \frac{1}{e^3})=0.375+0.1090601=0.4840601
正規化後の「いない」\frac{0.375}{0.4840601}=0.7746972
正規化後の「いる」1-0.7746972=0.2253028
- 観測数4匹
H(P)=-\frac{1}{2^4=16}\log_e \frac{1}{e^4}-\frac{15}{16}\log_e(1- \frac{1}{e^4})=0.25+0.01733011=0.2673301
正規化後の「いない」\frac{0.25}{0.2673301}=0.9351734
正規化後の「いる」1-0.9351734=0.0648266
- 観測数5匹
H(P)=-\frac{1}{2^5=32}\log_e \frac{1}{e^5}-\frac{31}{32}\log_e(1- \frac{1}{e^5})=0.15625+0.006549476=0.1627995
正規化後の「いない」\frac{0.15625}{0.1627995}=0.9597695
正規化後の「いる」1-0.9597695=0.0402305
なるほど我々がスズメバチの観測数が増えるにつれ「こりゃ近くに巣があるな」と確信を高めていく過程はこの様に数理的には①(コインの出目が確定する過程の様に)情報エントロピー全体が0=「自明の場合」に向かう過程で②「いない」情報のエントロピーが相対的に1に近付く「絶地天通プロセス」として観測される訳です。そしてそれは頻度主義における棄却検定過程において「いない」なる対立仮説が棄却されていく過程そのものであり、その結果として「いる」の正しい在り方たる正規分布が視界を被覆するという次第。
棄却検定(rejection test)
- 観測数10匹
H(P)=-\frac{1}{2^10=1024}\log_e \frac{1}{e^10}-\frac{1023}{1024}\log_e(1- \frac{1}{e^10})=0.009765625+0(計算不能)=0.009765625
ベイズ統計学的見地
観測数が増えるにつれ想定分布が変化していく辺りが興味深いところ。どう考えてもこれはベイズ更新ですよね? 時間あったらもっと掘りっ下げてみたいと考えています。