背景
前回(【お遊びの統計学】試験で偏差値60以上の人数の割合をマルコフの不等式で調べてみる)はマルコフの不等式で遊びました。今回はチェビシェフの不等式で遊びます。
チェビシェフの不等式
チェビシェフの不等式は
P(|X-\mu|\geq c) \leq \sigma^2/c^2
で与えられます。これもマルコフの不等式同様(というかマルコフの不等式の特殊形)、外れ値がどの程度あるかを説明することが出来ます。大数の法則の証明で有名ですね。
チェビシェフの不等式で信頼区間を構成する
$1-\alpha$信頼区間は
P(X_L(\{x\}) < \mu< X_R(\{x\})) \geq 1-\alpha
を満たす区間として定義されます。むむむ、チェビシェフの不等式が使えそうだぞ。
標本平均から母平均を推定するとします。チェビシェフの不等式を統計量$\bar X_n$に適用します。外れ値が$\alpha$以下となるようにすればよいので、
P(|\bar X_n-\mu|\geq c) \leq \frac{\sigma^2}{nc^2}=\alpha
とすれば$\mu\pm c$で囲まれる範囲が信頼区間となります。$2c$について解けば
2c = \frac{2\sigma}{\sqrt{n\alpha}}
となります。
ポアソン分布からのサンプリングにより$\lambda=3$を推定します。$\alpha=0.05$とします。gnuplotでグラフ化します。
gnuplot> plot [1:100] 2*sqrt(3.)/sqrt(x*0.05)
実際には$\sigma^2=\lambda$は未知なので、不偏分散等を利用すべきですが大目に見てください。
以前(【区間推定】信頼区間の解釈、構成法について数値実験してみる)やった正攻法の信頼区間と比べてみます($n=100$)。
大体区間幅が0.8くらいでしょうか。チェビシェフの不等式による結果が1.6くらいなので概ね2倍となっています。
感想
思ったほど悪くない結果だと思いました。チェビシェフの不等式は大数の法則の証明で有名、と書きましたが、今回の内容はほぼそのまんまですね。$\alpha$を小さくして$n$を大きくして、みたいなことすると母平均にいくらでも近づくことが直感的にもわかると思います。書いてる途中で既視感バリバリでした(笑)。