statistics

社会調査の推定と検定

More than 3 years have passed since last update.

昨日は帰無仮説について触れましたが、今日は社会調査の結果を集計してから検定に進むまでの手順を整理しておきます。

標本をもとに母集団を調べる

たくさんある中からいくつかを取り出して調べるとき、その元の集団を 母集団 (population) 、取り出したサンプルを 標本 (sample) と言います。母集団におけるただひとつの値のことを 母数 (parameter) といい、また母集団の統計量を 母平均 u母分散 σ^2母比率 π などと言います。標本の統計量に基づいて母集団の特徴を推測する手続きには主に 2 通りあります。

手続き 説明
推定 標本統計量から母数を区間推定し母集団の統計量を推定する
検定 母数に対するある仮説を立てた上でその仮説が真であるかどうか標本統計量に基づいて判定する

区間推定と信頼区間

母集団の平均や分散があらかじめ判明しているケースはまれです。むしろそれらを調べるために適当な量の標本を抽出しているのだから当たり前のことです。ただし母数が含まれる値の範囲を推定することは必要で、これは 区間推定 (interval estimation) と言われます。必要な情報としては次のとおりです。

  1. 標本平均、標本比率
  2. 標準誤差の推定値
  3. 標本が分布全体の何パーセントを含むか (= 推定の誤差をどの程度まで抑えるか)

このうち 3. は信頼度と言われ、これが高いほど精度の高い推定が可能になります。よく利用されるのは 95% の信頼度です。これは 5% 程度の誤差は許容するということで、統計学の世界でよく利用される信頼度です。

ある番組の視聴率が 20% 、調査した人数が 600 (N=600) 人だったとします。この場合、上記の 1. は 0.2 であり 2. は次式の通りで 0.0163 になります。

\sqrt{ [0.2 × (1-0.2)] / 600 } = 0.0163

そして 3. の信頼度については標準正規分布表を参照します。信頼度を 95% と設定した上で標本平均 (比率) ± z 値 × 標準誤差 = 0.2 ± 1.96 × 0.0163 から 0.168 〜 0.232 となります。つまりは 16.8% から 23.2% の範囲ということです。

この例では正規分布を仮定しましたが、母数の推測は可能な限りかたよりを無くすことが大切で、そのために 無作為抽出 (random sampling) などがよくおこなわれます。標本抽出に何らかの意図があれば当然のことながら推定や検定の結果もおかしくなりますので、その点に注意しましょう。

有意水準と棄却

有意水準 (level of significance) は帰無仮説を棄却するかどうかを判定するための基準です。たとえば統計学的によく利用される有意水準 5% というのは、真の帰無仮説が 20 回に 1 回誤って棄却されてしまう可能性を示します。統計学的に有意であるというのは、このように多少誤りの確率を含んでいることを忘れてはなりません。決して絶対的な基準ではないのです。

有意水準は α と表記され、社会調査においては α = 0.05 または α = 0.01 に設定するケースがほとんどです。

ある番組の視聴率が 20% を期待していたのに実際に調査結果を調べてみたら 15% だったとします。調査した人数は 600 (N=600) 人です。

このときに仮説をたててみましょう。昨日の帰無仮説の話を思い出してください。どういう帰無仮説をたてるか、ちょっと考えてみましょう。

仮説 説明
帰無仮説 母集団における視聴率は 20% のはずだ (15% という調査結果はたまたま起こりうる)
対立仮説 母集団における視聴率は 20% ではない

測定誤差をこえる有意な差があるかどうかを調べればいいわけです。そう考えるとおのずと仮説を導き出すことができます。

帰無仮説をもとに標本分布を考えると N=600 のとき分布全体の信頼度 95% が含まれる範囲は 16.8 〜 23.2 % です。実際の視聴率は 15% だと言われてますから、帰無仮説のもとではこの視聴率 15% が発生する確率は有意水準 5% 未満であると推定されるわけです。ですから、発生確率が低いのは帰無仮説が誤っていると判断して帰無仮説を棄却します。そして対立仮説の通り「母集団における視聴率は 20% ではない」を採択するわけです。これが検定です。

まとめ

今回は視聴率を例とした社会調査を前提として、推定と検定について整理してみました。もちろん社会調査以外の分野でも同じことです。応用範囲の広い基礎知識なのでしっかりおさえておくのが良いでしょう。

参考

社会統計学入門 (放送大学教材)
http://www.amazon.co.jp/dp/4595313705