この記事について
2023年11月から、データ分析の学校に通い始めた統計初心者です。
二項分布について、数式とかじゃなく「いつ使うのか」をざっくり理解するためにまとめてみます。
二項分布いつ使うのか
そもそも二項分布とは
結果が2つの試行を何度も繰り返すことによって起きる分布
結果が2つとは
たとえばこんなこと
- ひとつのコインを投げて表が出るか裏が出るか
- 一人の社員が一定期間内に会社をやめるかやめないか
- 一人の既存顧客が一定期間内にサブスクを解約するかしないか
- 告白が成功するかしないか
- 一人の顧客がある商品を買うか買わないか
- 一人のユーザーがあるボタンをクリックするかしないか
- 一人の人がバレンタインデーにチョコレートをもらえるかもらえないか
二項分布のパラメーター
- 試行回数(n)
- イベントの発生確率(p)
上記のパラメータから導き出せる数値
- 平均(np)
- 分散(np(1-p))
二項分布を使って知れること
結果が2つの事柄(A or not A)について、結果がAとなる確率がpの場合、n回の試行中、x回Aが起こる確率は?
具体例① 3年で3割辞める新入社員が、3年でx人辞める確率
二項分布の命題に当てはめると・・・
新入社員が3年以内に辞める確率が30%の場合、100人の新入社員の中で、3年後に50人が辞める確率は?
ここで、「3年後」はあくまで発生確率と成功確率(ある事柄が起きることを成功というので、ここでは「辞めること」を「成功」と言っている)の条件を揃えるためのもの。
なので「3年後」の「3」という数字はパラメータにはあらわれてこない。
3年後に3割辞める若者が1年で何割辞めるか、という問いになると、発生確率の条件(3年で)と知りたい成功確率の条件(1年で)がずれてしまうので、答えられない。
パラメータは・・・
- 3年以内に辞める可能性が30% - これが発生確率 p
- 100人の新入社員 - これが試行回数 n
- 3年後に50人が辞める確率 - これが成功回数 x
Excel の数式
上記をExcel で計算すると、こんな感じになる。
# 書き方 BINOM.DIST(成功回数x,試行回数n,発生確率p,FALSE)
=BINOM.DIST(50,100,0.3,FALSE)
答えは意外にも(?)0.0013%。
新入社員が3年で3割やめる会社でも、3年後に新入社員が半分に減っている確率は0.0013%(1万年に13回)しかないということですね。
分布のグラフを作ってみる
これを、50回以外の数にもあてはめて、ざっくり確率の分布を見ていくとこんな感じになる。
横軸=人数、縦軸=その人数が3年で辞める確率です。
- 3年で平均3割辞める会社ということで、30人辞める可能性がいちばん高いというのは直感的にも納得。
- だいたい25〜35人の間に集中していて、20とか45の可能性もゼロではない
ということで、その範囲の数字をもう少し細かく見ていくと・・・
→ いちばん可能性が高いのは3年で30人辞めていることだけど、32人辞める確率よりは28人しか辞めない確率のほうが低いとか、そんな感じのことがわかる。
具体例② ナンパ成功率1%の人が、100人に声をかけてもナンパに一度も成功しない確率
ナンパの成功率が1%というのは、100回ナンパしたら常に1回成功するという意味ではない。
100回中、運良く2回成功することもあれば、一度も成功しないこともあるでしょう。
…運良く2回成功するのと、一度も成功しないのでは、どちらの可能性が高いか? という問題も、二項分布で解くことができます。
Excel の数式
ナンパに一度も成功しない確率をExcel で計算すると、こんな感じになる。
# 書き方 BINOM.DIST(成功回数x,試行回数n,発生確率p,FALSE)
=BINOM.DIST(0,100,0.01,FALSE)
→ 答えは36.6%。つまり100人にナンパするのを100日繰り返したら、そのうち36〜7日くらいは、一度も成功しない日があるということ。
分布のグラフを作ってみる
これを、0回以外の数にも当てはめて、グラフを作ってみるとこんな感じになります。
運良く2回成功する確率は18.49%で、一度も成功しない確率のおよそ半分でした。
変数を変えて分布を比べる
ナンパする人数を増やしていくと、この分布はどう変わるのかを見てみると、こんな感じ。
声をかける人数が500人を超えてくると、成果ゼロの日は限りなくゼロに近くなるようです。
人数勝負じゃなく、成功率を上げるのはどうか? ということで、成功率が1%ずつ上がった場合の分布を見てみると、こんな感じ。
なるほど、成功率が1%→2%に上がるだけで、成果ゼロの日(1日かならず100回ナンパするとして)の発生確率は半分以上に減らせるんですね。
以上
記事を書きながら二項分布の理解を深めようという目的で書き始めましたが、書いた本人の理解はだいぶ深まった気がします。
読んでくれた方にも少しはお役に立てれば幸いです。