背景
タイトルのやりとりはネット・SNS上でもときどき見かけることがあります。言葉遣いの違いで実質同じと考えられる問いをいくつか挙げると、
- 「標本サイズnがいくらあれば標本平均は正規分布とみなせますか?」(タイトルの再掲)
- (標本平均の議論で)「nが大きいってどのくらいなら十分な大きさですか?」
- 「中心極限定理を用いて近似してもいいですか?」
というようなものです。
前提事項として、中心極限定理が成り立つ状況、つまり母平均・母分散は有限と仮定します。この条件は明示的に言及されないことも多いですが、満たしてなければ上記の問いはナンセンスなので、そこは大丈夫としておきましょう。
中心極限定理(central limit theorem)は、標本平均が漸近的に平均$\mu$、分散$\frac{\sigma^2}{n}$の正規分布にしたがうという定理です。母平均と母分散が存在するだけで成り立つ強力な定理ですが、n→∞での振る舞いについての定理なので、有限のnのときの標本平均の分布を教えてはくれません。
さて、先の問いに(母集団によらず)「○○以上でOK」と答えられるでしょうか?
前編では、巷で見受けられる「○○以上」の○○がどのくらいとされることが多いか調べてみます。
ググってみた結果
「一般の母集団に対して標本平均の分布が正規分布に近づくのに十分な標本サイズ」について、それが存在するのかも含めてGoogle検索してみました。
n = 30でいい説
「30以上」は結構な数ありました。
例をいくつか。
皆さんの中には、t 検定をするとき、サンプリングしたデータが正規分布に従っているか心配で仕方がないという人がいるかもしれませんが、実のところそれほど心配する必要はありません。中心極限定理によって母集団がどんな分布であっても「標本平均の分布は正規分布に従う」ことが分かっているからです。「標本平均の分布」とは、同じ母集団から何度も無作為抽出(実験の場合は無作為化)を繰り返して、その度に計算しなおした場合の標本平均のバラツキ具合です。この標本平均の分布は、母平均 μ を中心とし母標準偏差を標本の大きさ n の二乗根で割った値(母標準偏差/√n )を標準偏差とする正規分布になります。標本の大きさ n が大きくなるほど正規分布に近づき、n が30にもなればほぼ正規分布に一致します。なお、母標準偏差/√n のことを標準誤差というのは「標準誤差」の記事で書いたとおりです。
一般的にサンプルサイズが30(N=30)以上の時に標本平均の分布は正規分布に従う(中心極限定理)と仮定して構わないとされている。また母集団が正規分布であれば、Nの数にかかわらず、標本平均は正規分布に近似する。
母集団の分布が正規分布とかなり異なる場合は,ある程度サンプルサイズが大きくなるまで正規分布に近づきません.どの程度のサンプルサイズで標本平均が正規分布に近似するかは母集団の分布に依存します.
一般的にはn≥30の場合に,標本平均の分布は正規分布とみなして統計解析を行うことが多いです.
これは、標本平均の分布が正規分布に近づく速さが母集団の分布によることに触れています。
n = 100〜1000でいい説
「[100〜1000]以上」もぽつぽつ見ました。
例を一つ。
厳密には n→∞ について述べた定理ではあるのですが、早いものなら n=100 程度、そうでなくても n=1000 程度あれば大抵のケースで正規分布に近似できてしまうのが中心極限定理の特徴です。
これは、暗黙的に母集団の分布により近似が適用できる標本サイズは変わる(100、1000)と言っています。
n = 5でいい説
見つけた中で最小は「5以上」でした。
そして中心極限定理ですが、大体N=5以上になると元が一様分布だろうが、二項分布だろうが、非対称な分布であろうが大抵の標本分布は正規分布と区別できなくなります。
かなり思い切った、というか思い切りがよすぎるのでは…。
まあ、一様分布や二項分布(p ≈ 1/2)ならそう間違ってもないのですが。
基準はない説
実際のところ、母集団によりけりなので、一般に基準を示すのは無理があるようです。
一様分布などでは標本平均はすぐに正規分布に近づきます。
歪んだ分布の場合は、歪みが標本平均に反映されてしまい、その歪みがなくなるのに必要な標本サイズが大きくなるので正規分布への漸近が遅くなります。
サイズnの標本の標本平均の分布の正規分布による近似の誤差の大きさは、母集団分布に依存します。
母集団分布によっては、小さなn(例えば10程度)でも実用的に十分な近似になることもあるし、実践的には無理なほど非常に大きなnが必要になる場合もあります。
標本平均の分布の正規分布近似の誤差は、母集団分布がほぼ左右対称で裾が太くなければ小さなn (例えば10~20程度)で十分に小さくなりやすいです(例:一様分布)。
しかし、左右非対称で裾が太い母集団分布では大きめのnが要求されるようになります(例:対数正規分布)。
このように、中心極限定理による実用的な正規分布近似で必要な標本サイズnの大きさは、母集団分布に強く依存し、必要なnの見積もりには未知の母集団分布の形に関する予測が必要になります。
母集団分布の形を無視して「nが100以上ならば大丈夫」のように言うのは誤りになります。
分布を例示しながら注意深く説明していると思います。
どんな場合もウソにならない言い方をするとしたらこういう風になるでしょう。
前編まとめ
標本平均の分布が正規分布に近づくのに十分な標本サイズとして、「30以上」や「100以上」といった数が示されることがある。これはよくある分布の場合での経験則のようなもので、一般の母集団でいえるわけではない。
このことを乱数実験で観察してみましょう。(後編に続く!)