昨日、面白い問題を聞きました。
問題
コインを100万回投げたとき、表が出る回数がちょうど50万回出る確率$P(A)$と表が49万5千回以下の確率$P(B)$はどちらが大きいでしょうか?
さて、これはどっちが大きいでしょうか?
確率をそのまま立式すると
P(A) = \frac{{}_{10^6}C_{5 \cdot 10^5}}{2^{10^6}} \\
P(B) = \sum_{n=0}^{4.95 \cdot 10^5}\frac{{}_{10^6}C_{n}}{2^{10^6}}
となります.
とはいえ、これほど大きい数は計算するのは簡単ではありません。
まず、数を減らして考えてみましょう。ざっと1万で割ってみます。
問題2
コインを100回投げた時、表出る回数がちょうど50回の確率$P(C)$と49回以下の確率$P(D)$どちらが大きいでしょうか.
こうみると自分の直感的には49回以下の方が大きい気がしましたが、どうでしょうか。
49万5千回に比べれば相当少ないですが、49回も計算する気がおきませんね。
そこで、$P(C)$だけうまく計算すればできる方法がないか考えてみます。
計算の工夫ポイント
- 対称性から、表が49回以下の確率と表が51回以上(=裏が49回以下)の確率のが等しい
- 表が出る回数は49回以下か50回か51回以上しかないので、$P(D)= \frac{1 -P(C)}{2}$
この2つを使うことで、$P(C) < \frac{1}{3}$と$P(D) > P(C)$が同値になることがわかります。
上の結果はただ$P(D)$を計算せずに済んだだけでなく、
$P(C)$も__具体的な値がわかる必要がなく、不等式で評価できればよい__ことがわかりました。
そこで$n$が2以上の場合
\frac{{}_{2n}C_{n}}{2^{n}} > \frac{{}_{2(n+1)}C_{n+1}}{2^{n+1}}
となることに注意すると、(証明は式変形すればよいです)
100回以下のどこか偶数で示せてしまえばいいことがわかります。
余談
上の不等式の評価は2回コインを投げた時に1回表が出る確率よりも10回コインを投げた時に5回表が出る確率の方が少なさそうという感覚を厳密にしたものです。
実際、6回コインを投げた時に表が3回出る確率が
\frac{{}_{6}C_{3}}{2^{6}} =\frac{5}{16} < \frac{1}{3}
となるので、$P(C) < \frac{1}{3}$が従い$P(C) < P(D)$がわかります。
問題2のこの結果を見ると、問題の答えは、
$P(A) < P(B)$な気がしますが、実際にはどうなるでしょうか。
このままでは簡単には計算できないので、今回は近似を使うことにします。
高校数学の美しい物語
という素晴らしいサイトを見ると,以下の定理が紹介されています。
Thm (ド・モアブル–ラプラスの定理)
コインをn回投げる時の表がk回出る確率は二項分布$Bin(n,\frac{1}{2})$は
十分$n$が大きい時、平均$np$,分散$np(1-p)$の正規分布で近似できる。
上のサイトでもちょうどコインの場合で具体的に計算されているので、詳細は省きますが
100万回コイントスする時の確率分布$X$に対して、
\frac{X - 0.5 \cdot 10^6}{500}
が標準正規分布で近似できることがわかります。
後は正規分に関する計算だけすればいいわけですが、ちょうどいいようにWikipediaの偏差値の記事に以下の記載がありました。
偏差値60以上(あるいは40以下)は、全体の15.866%。
偏差値70以上(あるいは30以下)は、全体の2.275%。
偏差値80以上(あるいは20以下)は、全体の0.13499%。
偏差値90以上(あるいは10以下)は、全体の0.00315%。
偏差値100以上(あるいは0以下)は、全体の0.00002%。
偏差値は標準偏差が10となるようにしたものです。
今回の100万回のコイントスの場合は、上の定理から標準偏差が500となります。
-
49万9501回〜50万499回表が出る場合
偏差値に直すと偏差値40〜60の範囲になる確率で、おおよそ68%となります。
50万回出る確率がこの中で一番高いことに注意すると、
$P(A) > 0.68 / 10^3 = 68 \cdot 10^{-5}$ であることがわかります。
100万回この実験をすると680回以上は表が50万回ぴったりになりそうだということがわかります。 -
表が出る確率が49万7500回以下の場合
つまり偏差値が0以下は0.00002%、つまり500万回に一回しか出ません。
49万5000回以下はおろか、49万7500回以下ですらほとんど出ないことがわかりました。
この2つから、最初の問題の答えは以下となります。
P(A) >>>>>>>> P(B)
余談
直感と反する原因は標準偏差が$\sqrt{n}$に比例するためです。
標準偏差は散らばり具合を表しているわけですが、上のことから$n$が大きくなるほど$n$に比べて、小さくなることがわかります。
線形に変化すると思って予測すると、完全に違う結果になります。