不偏標本分散の平方根の偏り
不偏推定量の変換の記事で述べた、不偏推定量を変換すると不偏性がなくなる例として、不偏標本分散の平方根があります。
不偏標本分散の平方根
s = \sqrt{\frac{1}{N - 1}\sum_i\,(X_i - \overline{X})^2}
は、標準偏差$\sigma$の不偏推定量になりません。
正の平方根は凹関数なので、凹関数版のイェンセンの不等式
\text{E}(g(X)) \leq g(\text{E}(X))
から、
\text{E}(\sqrt{s^2}) \leq \sqrt{\text{E}(s^2)}
\text{E}(s) \leq \sigma
のように、偏りは負とわかります。
確率変数の分布を指定すれば、さらに踏み込んで議論することができます。
正規分布の場合の結果をWikipedia英語版から引用します。
\text{E}(s) = c_4(n)\,s
c_4(n) = \sqrt{\frac{2}{n - 1}}\frac{\Gamma\!\left(\frac{n}{2}\right)}{\Gamma\!\left(\frac{n - 1}{2}\right)}
Unbiased estimation of standard deviation - Wikipedia
この話題で単独ページがあるのすごいな……。
上の結果の導出については、以下のブログ記事が参考になります。
標準偏差の近似不偏推定量
さて、前節の偏り係数の逆数を$s$に掛けた
\hat{\sigma} = \sqrt{\frac{N - 1}{2}}\frac{\Gamma\!\left(\frac{N - 1}{2}\right)}{\Gamma\!\left(\frac{N}{2}\right)}s
は、正規分布の標準偏差$\sigma$の不偏推定量になるわけですが、式がいかつい感じです。多少正確さに欠けても手軽な方法はないでしょうか?
上の正確な補正係数の代わりに$\sqrt{\frac{N - 1}{N - 1.5}}$を$s$に掛けた
\hat{\sigma} = \sqrt{\frac{1}{N - 1.5}\sum_i\,(X_i - \overline{X})^2}
が偏りの少ない近似不偏推定量になります。
Unbiased estimation of standard deviation - Wikipedia
「不偏標本分散の平方根$s$の定義式で(N − 1)を(N − 1.5)にするだけでほぼ不偏推定量になる」のは、意外で面白いです。
補正係数のグラフ
近似的な補正係数$\sqrt{\frac{N - 1}{N - 1.5}}$のグラフです。正確な補正係数(点線)に速やかに漸近する様子が見て取れます。
