3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

超幾何分布と2項分布の関係性

Posted at

はじめに

当たりくじと外れくじが入っている箱から戻さないでくじを引き続ける場合を考える。これを、非復元抽出という。このとき、ある試行回数で何回あたりがでるかという確率は、超幾何分布という確率分布に従う。また、試行回数に対して箱の中のくじの数が十分に大きいとき、つまり母集団が標本数よりも十分に大きい場合は、超幾何分布は2項分布に漸近する(参考文献参照)。そこで今回は、超幾何分布について紹介し、2項分布と対比させることで、両者の特性を比較する。具体的には、Pythonを用いて以下のように、2項分布と超幾何分布をグラフで表現し、両者を比較する。

超幾何分布試行回数10.png

超幾何分布について

箱の中に、$M$個の当たりと$N-M$個のはずれくじが存在しているとする。ここから、$n$回くじを戻さずに引き続けることを考える。このとき、当たりが$m$回出現する確率を$P_0(m)$と表現する。

このとき、$P_0(m)$はコンビネーションを用いて以下のように表現することができる。

P_0(m)=\frac{_M C_m \times _{N-M} C_{n-m}}{_N C_n}

これを超幾何分布という。

また、性質として、$n<<N$である場合、$P_0(m)$は2項分布に漸近する。(詳細、証明は、参考文献を参照したい。)

ここで、2項分布との対比のため、袋の中の当たりの比率を$p=\frac{M}{N}$とおく。

2項分布について

ここで、2項分布についておさらいしておく。上記のくじ箱からくじを、引く操作を行うとする。ただし、くじは1回の試行ごとに箱へ戻すものとする。このとき、$n$回の試行で当たりが$m$回でる確率$P_1(m)$は以下のように表すことができる。

P_1(m)= _n C_m p^m(1-p)^{n-m}

したがって、次章では、Pythonを用いて$P_0(m),P_1(m)$を数値計算する。

プログラム

以下の記事を参考にしてプログラムを作成した。

python h-g_dis.py
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
import math
#全試行回数
N=1000
#1回の事象の発生確率
p=0.5

# 試行回数
n=10
# 当たりの数
M=int(N*p)
#当たりが出る回数の合計
m=np.arange(0,n+1,1)

#階乗計算
def factorial(num):
  num2=1
  for i in range(1,num+1):
    num2=num2*i
  return num2
#確率を入れる配列
P0_ary=[]
P1_ary=[]
#超幾何分布と2項分布の確率を計算
for k in range(len(m)):
  #コンビネーションの計算
  combi0=factorial(M)/(factorial(m[k])*factorial(M-m[k]))
  combi1=factorial(N-M)/(factorial(n-m[k])*factorial(N-M-n+m[k]))
  combi2=factorial(N)/(factorial(n)*factorial(N-n))
  #反復試行の確率
  P0=combi0*combi1/combi2
  P0_ary.append(P0)
  #コンビネーションの計算
  combi=factorial(n)/(factorial(m[k])*factorial(n-m[k]))
  #反復試行の確率
  P1=combi*(p**(m[k])*(1-p)**(n-m[k]))
  P1_ary.append(P1)
plt.plot(m,P0_ary,color="blue",label="超幾何分布")
plt.plot(m,P1_ary,color="red",label="二項分布")
plt.legend()
plt.grid()
plt.title("超幾何分布"+str(n)+"回の試行")
plt.xlabel("表の出る回数")
plt.ylabel("超幾何分布の確率")
plt.savefig("超幾何分布試行回数"+str(n)+".png")
plt.show()

結果

試行回数が10回のとき

試行回数が10回のときの結果を以下に示す。

超幾何分布試行回数10.png

このように、母数に対して標本数が十分に少ないと、超幾何分布はかなり2項分布に漸近する。

試行回数が20回のとき

試行回数が20回のときの結果を以下に示す。

超幾何分布試行回数20.png

すこし、2項分布からずれてしまった。

試行回数が100回のとき

試行回数が100回のときの結果を以下に示す。

超幾何分布試行回数100.png

かなり、2項分布からずれてしまった。

まとめ

今回は、Pythonを用いて超幾何分布と2項分布の比較を行った。結果、くじの総数に対して、試行回数が十分に小さい場合は、超幾何分布は2項分布に漸近するということが分かった。

参考文献

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?