ベルヌーイ分布(Bernoulli Distribution)は、一言で言うと二項分布(Binomial Distribution)の試行回数が1回限りのバージョンです。
【Token】二項分布の平均と分散と最尤値
f(k;p)=p^k(1-p)^{k-1} (k∈(0,1))
\left\{
\begin{array}{ll}
p^1(1-p)^{1-1}=p^1(1-p)^0=p & (k=1) \\
p^0(1-p)^{1-0}=(1-p)^1=1-p & (k=0)
\end{array}
\right.
$p=1-p=\frac{1}{2}$の時、x=2の場合の一様分布$f(x)=\frac{1}{x}(0≦x)$と対応。
【Token】連続一様分布の平均と分散と最尤値
平均
ベルヌーイ分布は試行結果が0と1の2種類しか存在しない確率分布なので、以下で計算されます。
E(X)=\sum_{k=0}^1 kP(X=k)=0×(1-p)+1×p=p
分散
E(X^2)=\sum_{k=0}^1 k^2P(X=k)=0^2×(1-p)+1^2×p=p
V(X)=E(X^2)-(E(X))^2=p-p^2=p(1-p^2)
最尤推定
二項分布と同じく観測された成功回数kを試行総数nで割った$\frac{k}{n}$となります。これは「たった1回の試行」が相応に試行された場合の計算方法であって、確かにそれなら二項分布と同じ結果となる訳です。
【Token】二項分布の平均と分散と最尤値
\hat{p}=\frac{\sum_{i=1}^nx_i}{n}
ならば本当に文字通り試行が1回切りだったとしたら? 最尤推定の理論上は
- 試行前にはとりあえず仮に一様分布の考え方を援用し、成功と失敗の確率それぞれを半々の$\frac{1}{2}$と見積もる事しか出来ない(そもそもこの時点では分布が一様分布かベルヌーイ分布/二項分布かも不定)。
- 試行後には観測結果によって成功か失敗かの最尤推定が1となる。
ベルヌーイ分布の定義が表しているのはまさにこれなのです。
\left\{
\begin{array}{ll}
p^1(1-p)^{1-1}=p^1(1-p)^0=p & (k=1) \\
p^0(1-p)^{1-0}=(1-p)^1=1-p & (k=0)
\end{array}
\right.
ベイズ推定が最初に突き当たったのもこの「過去データが存在しない場合には成功と失敗の確率それぞれを半々の$\frac{1}{2}$と見積もる事しか出来ない」壁で、これが人間の自然な直感に逆らう為に普及が遅れたのです。
情報理論における考え方
情報理論における自己情報量(Self-Information)は、特定の事象がどれだけ驚きや情報をもたらすかを事象の発生確率に基づいて定量的に定義したものです。確率が高い事象ほど自己情報量は小さく、確率が低い事象ほど自己情報量は大きくなります。つまり、頻繁に起こる事象は驚きが少なく、珍しい事象は驚きが大きくなると考えます。
一方、平均情報量(Entropy)はある確率分布の不確実性を測る尺度で、それが高いほど、情報源の不確実性が大きい事を、逆に低いほど、情報源の不確実性が小さいことを意味します。
こうした情報量(Information Content)の概念は「発生確率が低いほど大きい(単調減少性)」「確率に関して連続的に変化する(連続性)」「独立同時事象の情報量が周辺事象の情報量和に等しい(加法性)」といった直感的要請に従う様に定められています。
- 事象Eが起こる確率をP(E)とするとき、事象Eが起こったことを知らされたとき受け取る自己情報量I(E)を以下の様に定義する。
自己情報量I(E)=\log \frac{1}{P(E)}=-\log P(E)
- 確率分布$P=(P_1,P_2,P_3,…,P_n)$が与えられた時、これを自己情報量I(E)で定義した値H(E)を平均情報量と規定する。
平均情報量H(E)=\sum_{i=1}^n P(p_i)I(p_i)=-\sum_{i=1}^n p_i \log p_i
ただし\lim_{p→0+} p \log p=0である事からP(p_i)=0の時、p \log p=0
対数の底を2で取ったので単位はbit(ビット)?
コイン投げにおける考え方
あるコインを投げたときに表が出る確率を𝑝、裏が出る確率を1−𝑝とすると、このコインを投げたときに得られる平均情報量(Entropy)は以下となります。
H(X)=-p \log_2 p-(1-p) \log_2 (1-p)
秘書問題における考え方
秘書問題(Secretary Problem)についてChatGPTにまとめさせた結果が以下。
秘書問題は、確率論と最適化の分野で有名な問題です。基本的な形式は次の通りです:
設定:
あなたはn人の秘書候補者を面接する予定です。
各候補者は一度しか面接できず、再度面接することはできません。
面接後、即座にその候補者を採用するかどうかを決定しなければなりません。
採用の決定をしたら、残りの候補者は面接できません。目標:
できるだけ最適な候補者(つまり最高の候補者)を選ぶこと。戦略:
最適な戦略の一つは「観察期間」を設けることです。この期間では、候補者を採用せず、彼らの評価だけを行います。
観察期間終了後、最初に観察期間中の最高評価を上回る候補者が現れたら、その候補者を採用します。
途中過程は省きますが、最終的に$-x \log_e x$の計算となって全面接者のうち最初の$e^{-1}=\frac{1}{e}=0.3678794$割までを「観察期間」としてスキップするのが最適戦略となります。逆に言えば「任意の人数までを観察期間を1と置いた場合、この方法による予測の有効範囲はe(2.718282)倍まで」とも?
対数の底をeで取ったので単位はnat(ナット)?
とどのつまり?
整数𝑢に対し、𝑢の対数$log_𝑚$は𝑚進法における𝑢の桁数にほぼ等しい値を表します。したがって確率$\frac{1}{n}$で起こる事象の情報量は、ほぼ𝑢の桁数になるのです。
一方、各桁を構成する0以外の元の数に注目すると2進数(0以外の元は1のみ)とe進数(0以外の元は$\frac{1}{e}$のみ)の特徴が重なります。おそらくこういう話が「十分に小さい区間で1回起こる事象」を中心として成立するポアソン分布や指数分布と関係してくるのではないでしょうか?
そんな予測が立った時点で以下続報…