0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

[Statistics] 二項分布 とは

Posted at

概要

二項分布(Binomial distribution)は、「成功/失敗」のような二値データ を扱うときに現れる確率分布です。

  • $n$ 回の独立試行で、それぞれの成功確率が $p$ のとき、成功回数 $X$ が従う分布。
  • 離散型の確率分布であり、確率質量関数(PMF)を持つ。
  • 標本サイズが大きくなると、正規分布で近似できる場合がある。

統計的推測(母比率の推定や検定)の基盤となる重要な分布です。

数式

二項分布 $X \sim Bin(n, p)$ の確率質量関数は:

$$
P(X = k) = nCk ; p^k (1-p)^{n-k}, \quad (k=0,1,2,\dots,n)
$$

(ここで $nCk$ は二項係数で、別表記 $C(n,k)$ と同義です。従来の組合せ記号 $\binom{n}{k}$ と同じ意味です。)

期待値と分散は次のようになります:

$$
E[X] = np, \quad \operatorname{Var}(X) = np(1-p)
$$

さらに、標本比率 $\hat{p} = X/n$ を考えると、その期待値と分散は:

$$
E[\hat{p}] = p, \quad \operatorname{Var}(\hat{p}) = \frac{p(1-p)}{n}
$$


数式の説明

  1. 二項係数 $nCk$
    $n$ 回の試行のうち $k$ 回成功する組み合わせの数を表します。
    数式は

    $$
    nCk = \frac{n!}{k!(n-k)!}
    $$

    で表されます。

  2. 確率項 $p^k (1-p)^{n-k}$
    それぞれの試行が独立であるため、$k$ 回成功し、残りを失敗する確率はこの積で表されます。

  3. 二項分布の期待値と分散
    成功回数 $X$ の平均は $np$、分散は $np(1-p)$。成功確率が高いほど平均が大きくなり、$p$ が 0.5 に近いと分散も大きくなります。

  4. 標本比率の定義と性質
    標本比率は

    $$
    \hat{p} = \frac{X}{n}
    $$

    で定義され、母比率 $p$ の 不偏推定量 です。

    また分散は

    $$
    Var(\hat{p}) = \frac{p(1-p)}{n}
    $$

    となり、試行回数が増えるほど推定のばらつきは小さくなります。

  5. 近似の考え方

    • $n$ が大きく $p$ が小さいとき → ポアソン分布で近似
    • $n$ が大きく $np(1-p)$ が十分大きいとき → 正規分布で近似(中心極限定理に基づく)

問題例

問題1:サイコロの出る確率

サイコロを 10 回振ったとき、「1」が出る回数 $X$ は二項分布に従う。
成功確率 $p = \dfrac{1}{6}$、試行回数 $n=10$。
このとき、ちょうど 2 回「1」が出る確率を求めよ。

解き方

  1. 分布を確認
    $X \sim Bin(10, 1/6)$

  2. 公式に代入

    $$
    P(X=2) = 10C2 \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^8
    $$

  3. 組合せを計算

    $$
    10C2 = \frac{10!}{2!8!} = 45
    $$

  4. 最終計算

    $$
    P(X=2) \approx 0.2907
    $$


問題2:製品の不良率の検定

ある工場での製品不良率が $p=0.05$ であると仮定。
100 個の製品を抽出したところ、不良品が 8 個見つかった。
この結果は「不良率が 0.05」という仮定と矛盾するといえるか?

解き方

  1. 仮定を設定

    • 帰無仮説:$p=0.05$
    • 分布:$X \sim Bin(100, 0.05)$
  2. 期待値と分散を計算

    $$
    E[X] = 100\times0.05 = 5
    $$

    $$
    Var[X] = 100\times0.05\times0.95 = 4.75
    $$

    $$
    \sigma = \sqrt{4.75} \approx 2.18
    $$

  3. 観測値の標準化

    $$
    Z = \frac{8 - 5}{2.18} \approx 1.38
    $$

  4. 棄却域と比較
    両側検定・有意水準 5% の臨界値は $\pm1.96$。
    $Z=1.38$ は範囲内 → 棄却できない。

  5. 結論
    「不良率 0.05」と矛盾するとは言えない(有意差なし)。

問題3:母比率の95%信頼区間(導出付き)

あるアンケートで、2100 人中 16% がある商品を支持すると回答した。
母比率 $p$ の 95% 信頼区間を求めよ。

解き方

  1. 標本比率を計算

    $$
    \hat{p} = 0.16
    $$

  2. 信頼区間の公式を確認

    $$
    \hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
    $$

    (ここで $z_{0.025}\approx1.96$)

  3. 標準誤差を計算

    $$
    SE = \sqrt{\frac{0.16 \times 0.84}{2100}} \approx 0.008000
    $$

  4. 信頼区間を計算
    下限:

    $$
    0.16 - 1.96\times0.008 = 0.144
    $$

    上限:

    $$
    0.16 + 1.96\times0.008 = 0.176
    $$

  5. 結論

    $$
    0.144 \le p \le 0.176
    $$

なぜこの式になるか(導出の流れ:詳解)

  1. 標本比率の定義
    標本での成功回数を $X$、試行回数を $n$ とすると、標本比率は
    $$
    \hat{p}=X/n
    $$

    と定義される。

  2. 標本比率と標本平均は同義
    各試行を「成功=1, 失敗=0」とするベルヌーイ変数 $Y_i$ とすると、

    $$
    \hat{p} = \frac{X}{n} = \frac{1}{n} \sum_{i=1}^n Y_i = \overline{Y}
    $$

    すなわち、標本比率は二値データの標本平均そのものである。
    そのため「標本平均を標準化する手順」がそのまま「標本比率の標準化」に使える。

  3. 期待値・分散
    $$
    E[\hat{p}] = p$(不偏)、 $\operatorname{Var}(\hat{p}) = \dfrac{p(1-p)}{n}
    $$

  4. 中心極限定理(または二項→正規近似)
    $n$ が大きければ、標準化された $\hat{p}$ は近似的に標準正規分布に従います:

    $$
    \frac{\hat{p}-p}{\sqrt{\dfrac{p(1-p)}{n}}} \overset{approx}{\sim} N(0,1).
    $$

  5. 両側確率で信頼区間をつくる
    95% 信頼区間なので、標準正規の上下 2.5% 点を用いて

    $$
    P\left(-z_{0.025} \le \frac{\hat{p}-p}{\sqrt{\dfrac{p(1-p)}{n}}} \le z_{0.025}\right) \approx 0.95.
    $$

    両側不等式を $p$ について解くと

    $$
    \hat{p} - z_{0.025}\sqrt{\frac{p(1-p)}{n}} \le p \le \hat{p} + z_{0.025}\sqrt{\frac{p(1-p)}{n}}.
    $$

  6. 実務上の近似(未知の $p$ を $\hat{p}$ で置換)
    右辺・左辺に現れる $\sqrt{p(1-p)}$ は母比率 $p$ に依存して未知です。実務ではその代わりに標本比率 $\hat{p}$ を用いて
    $\sqrt{\dfrac{p(1-p)}{n}} \approx \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
    とし、次の近似的な信頼区間式を得ます:

    $$
    \hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}.
    $$

    これが一般に教科書で示される「正規近似による母比率の信頼区間」の導出です。

  7. 注意点(使用条件)
    この近似が妥当であるための経験則として、通常は $n\hat{p} \ge 5$ および $n(1-\hat{p}) \ge 5$(またはより厳密には 10)といった条件を満たすことが望ましいです。今回の例では $n\hat{p}=2100\times0.16=336$ および $n(1-\hat{p})=1764$ なので十分大きく、近似は妥当です。

(補足)小さいサンプルや $\hat{p}$ が極端に 0 や 1 に近い場合は、Wilson 区間や正確二項(Clopper–Pearson)区間など、より良い方法を用いることが推奨されます。

参考リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?