統計解析の結果の精度は、サンプルサイズが大きければ大きいほど高くなりますが
現実問題として大標本を調査するには時間もコストも手間もかかってしまい、実行が困難、不可能になることがあります。
そもそも予算などがなくて実行できないこともあれば、実行してしまうと「調査した結果、何がしたいか」を実現できなくなることもあります。
「入念な調査を行った結果、調査に時間をかけすぎて手遅れであることがわかりました」とか「莫大なコストをかけて調査したところ、この商品はよく売れますが調査コストが大きすぎて回収できないことがわかりました」では何の意味もないのです。
その結果、ある程度小さな標本から全体のことを推論することになるのですが、標本を小さくするということは大きな推定誤差を受けるということであり、議論の信頼性が下がりえます。
しかし、サンプルを無限に大きくすることは出来ないわけで重要なのは、「主張している内容を誤差を加味しても指示する結果が得られているか」なのです。
サンプルサイズが小さくなるとその分精度が落ちるということは、統計対象や手法によらずほぼ普遍的な現象なので、「その主張は誤差を加味しても通用するか」を考慮せずサンプルサイズが足りないということは非建設的であり、結論を否定することありきで反論していると言わざるを得ません。
本記事は
- 自分の解析結果および考察、主張が妥当か確信が持てない人
- 気に食わない結論を導いている人に対して、とりあえずで「サンプルが小さいから信頼できない」と言ってしまう人
をターゲットに、サンプルサイズや精度が妥当かを自分で判断して、適切な主張や建設的な意見ができるようになってもらうことを目的としています。
精度がいくらか考えない
重要なのはサンプルサイズそのものではなくて、その結果どのぐらいの誤差範囲を持っているのかです。
誤差範囲を信頼区間や標準誤差で記したり、仮説検定を行なって有意差が出るかを検証しましょう。
精度を問うている変数が正規分布に従うならば、t統計量がt分布に従うことから誤差範囲を出したり、標準偏差から標準誤差を計算できますし、
アンケートの回答率(賛成と答えた人の割合など)なら、回答者数がn=サンプルサイズ、p=母比率の二項分布に従うことから、推定できます(基本的には正規分布に近似すると思います)。
ちなみに回答率の許容誤差を計算するツールもありましたので貼っておきます。
許容誤差の計算のところに「サンプルサイズ」「回答比率」「信頼度」を入れると求められます。
「サンプルサイズが足りない!」と言いたくなったらまず、誤差を計算してみて本当に足りないのか検証してから言いましょう。
ちなみにですが、誤差は
- サンプルサイズが大きいほど低い(サンプルサイズの平方根に反比例)
- 元データの標準偏差が大きいほど低い
- 特に、回答率について絶対誤差(誤差の絶対的な大きさ)は50%の時に最大。
となります。
必要な精度を考えない
例えば、世論調査で賛成:反対=51%:49%で「賛成多数!」と論じるのであれば、誤差が1%でも許容し難いです。
しかし、賛成が70%だった上で「賛成多数!」しか言わないなら10%程度ずれていても特に問題はありません。しかし、憲法改正などの2/3の賛成が必要な事柄の世論調査で、「改憲の見込みが高い」みたいなことを言いたければ賛成70%で誤差10%は許容できません。
主張の結論に影響を与える基準値と、実現値が近ければ近いほど誤差は許容できなくなるのです。
また、強い主張をしようとすればするほど、(実現値が同じなら)許容誤差は小さくなります。
言葉遣いの話だけでも、
「改憲賛成2/3越え」「改憲派優勢」「改憲の見込みが高い」「改憲ほぼ確実」などと言った具合です。
語尾に「か」をつけて(改憲派優勢か、など)主張を弱めたりもしますが、そういうテクニカルな話は一旦置いておきましょう。
例えば、「新商品の開発にどれだけコストをかけるべきか」のような話をしているときに、強気の提案をしようと思えば、その分「大きな利益の見込み」と「高い確実性」が求められるのです。
つまり、許容誤差というのは「どれだけの誤差によって結論の信頼性が揺らぐことを主張しているか」に依存しており、それは「どれだけ微細な差で結論が変わる状況か」「どれだけ確実性が求められる事柄か」「どれだけそれを強く主張するか」に依るのです。
つまり、同じ結果に対してででもこの主張を行うのには十分だが、こっちの主張を行うのには少し精度が足りないということが起こりえます。
「母集団の大きさに比べて、サンプルが小さすぎる」
「母集団は100万人もいるのに、その中の100人しか調査しないなんて!」「全体のうちの、たったの0.0001%しか調査していない!」みたいな主張も散見する気がします。
しかしながら、基本的に抽出調査における精度というのは(無作為抽出ができているという前提で)、
- サンプルサイズ
- 母標準偏差、母比率
のみで決まり、「母集団の大きさ」なんてものはそもそもほとんど必要ではありません(関係してくるケースについておまけ部分で詳しく解説しますが、そのケースでも「母集団に対する割合が低すぎる!」という主張は無意味という結論に達します)。
実際、統計処理を自分の手で行ったことがある人で「母集団に対する標本の比率」など気にして解析を行ったことのある方など少数派でしょう。特に自然科学や工学などでは「この薬剤を服用する(将来も含めた)全患者」「この製法で作られる(将来も含めた)全製品」などの抽象的な母集団を考えており、大きさ「無限大」であることがほとんどで、母集団に対する標本の大きさの比率なんて大抵0です。
母集団が標本よりどれだけ大きかろうが、「必要な精度が出せているか」と「精度を決めるのはサンプルサイズと母標準偏差、母比率」であり、「サンプルサイズと母集団の大きさの比率」は基本的には関係ありません。
検定の検出力はサンプルサイズが増えると増す一方
「仮説検定で有意差が出ました」といっている人に対して、(特にその結論を受け入れたくない人が)「そんなサンプルサイズで結論出せると思ってんの?」なんていったりしますが、サンプルサイズが増えると
- 検出力が増えて、取りこぼしが減る
- 偽陽性率は、設定している優位水準で決まるのでサンプルサイズに依存しない。
となっています。従って「有意差出ませんでした」といっている人に「サンプルサイズ増やしたら出るかもね」というのは正しいですが、「有意差でました」といっている人に「サンプルサイズ増やせ」というのは「仮説検定について基礎の基礎から何も知りませんけど、結論が気に食わないから知った口で文句は言います」といっているのと同じです。
有意差が出たけどサンプルサイズを増やした方がいい人というのは、「有意水準が高すぎる。もっと厳しい基準で有意になるようにサンプルサイズを増やすべき」という人だけです。
業界ごと、目的ごとに受け入れられる有意水準は異なりますので、その業界での慣例や受け止められ方を熟知した上で指摘すべきであり、世間で受け入れられている類似研究と同等の基準と比べて甘すぎる場合に「有意水準が高すぎる。」といって良いのです。
相手の研究が気に入らないからといって「有意水準が高すぎる。」とか言い始めてしまうと膨大な分野の研究に波及してしまい収拾がつきません。
困ったら「サンプルサイズ」に逃げないために
統計分析を見ていて結果にどうしても違和感があるが、何故なのか指摘することもできない。そんな時どうしても「サンプルが少なすぎる」と言いたくなるかもしれません。そんな時に考えられる他の可能性の例を挙げてみましょう。
自分自身の認知バイアスや読解力、理解力不足
あなたの感覚は本当にそんなに正しいでしょうか。確証バイアス、生存者バイアスなどに嵌ってはいませんか。自分の意見が正しくて、相手が間違っているというのは本当に根拠に基づいていますか。ダニング・クルーガー効果やバックファイア効果ではないですか。そもそも相手が何を主張しているか、言葉のイメージやその人自身に対するイメージで勝手に決めつけていませんか。相手の主張を論理的に正しく理解できていますか。相手が主張してもいない意見を攻撃しようとしていませんか(藁人形論法).
確証バイアス: 自分の意見に都合の意見ばかりを集めてしまって、(本当は間違っていたとしても)その確証をどんどん強めていく傾向。
生存者バイアス: その道で成功した、生き残った人だけが情報を発信することになるので、その影にいる(同じやり方でも)失敗した人たち情報が見えなくなり、うまくいくやり方だと誤解されるようになる傾向。
ダニング・クルーガー効果: 何かの知識や技能をかじりたての初心者が一番、「何でもできる」と根拠のない自信を持ちがちだという効果。その後、修練を続けると自分やその技能の限界が見えてきて、自信を大きく喪失したのち、さらに修練したのちに少しずつ根拠のある自信を身につけていく。
バックファイア効果: 自分の意見などに対して、否定的な意見、反論を言われると却って意固地になって自分の意見を盲信するようになってしまうこと。
藁人形論法: 相手の主張を歪めて解釈し、実際に相手が主張してもいない意見に対して反論を行うこと。
調査方法のバイアス
サンプルサイズよりも実際、問題になるのは調査方法によるバイアスです。
- 無作為抽出が行えているか
- アンケートの質問仕方や選択肢が誘導的ではないか
- アンケートの質問の並びが誘導的ではないか
数だけ揃えても世の中の偏った人たちを集めて意見を集約していては、「世間一般の意見」ではなく「そういう人たちの意見」を集約するだけになってしまいます。
例えば、自分のSNSでアンケートを取っても、それは「自分はどういう人たちにフォローされているか」の調査にはなり得ても、「世間の意見はどうなのか」の調査にはなりません。
そして、無作為性の高い調査を行うというのはそれだけで非常に手間やお金がかかり面倒なことも珍しくないのです。
またアンケートの誘導質問というのは、心理学的効果や認知バイアスを巧みに織り込まれていたりするので、そういう分野の知見でもって判断する必要があり素人には難しいこともあります。
ただ、集約結果だけではなく、実際のアンケート用紙などを公表し「実際の質問文、選択肢、質問どうしの並び方など」を心理学などの専門家が検証・批判できるようにしておくことが好ましいと思います。アンケートなら心理学などの専門家、実験結果なら実験科学の専門家に手法がチェックされるべきです。
効果の大きさについて論じる
統計解析の結果は、有意差があるなどでもって「差がある」「効果がある」ということを示して終わりになりやすいですが、どれだけの差・効果なのかを論じることで結論が大きく変わる可能性があります。
統計量として「効果量=(標準偏差の何倍の変化か)」と呼ばれているものを求めることで一定程度答えられますが、実社会におけるインパクトの大きさを論じないとその解析の有用性がわからない事があり、理想的にはそうできると良いです(なかなか難しいこともあるのですが)。
「この手法で開発すると生産コストがいくらからいくらになりました」「この薬を使用するとこの病気の5年後生存率がいくらからいくらになりました」「この授業方針に変えると卒業目前時における〇〇模試の偏差値が平均いくらからいくらになりました」などです。
例えば、工業製品の製造コストを分析しているとして、生産方法が高度に規格化、自動化されているために元々標準偏差が小さく、ほんの少しの改善で有意差が出るし、効果量も大きくなるという場合があるかもしれません。その生産手法改善策を導入するメリットがあるか検討するために、何標準偏差分変化したかより、実額でいくら〜いくら程度の改善なのかが知りたいわけです(そうやって初めてコストと比較できます)。
統計的に「有意差がある」「効果量が大きい」よりも「その実際の差は実社会で意味ある?コストに見合う?」ということの説得力は遥かに大きく、その実社会上の意味を統計学で論じられると理想です。「この手法で開発すると生産コストがいくらからいくらになりました」も「改善額の期待値はいくら何%信頼区間で見て、いくらの改善~いくらの改善が見込めます」というように期待値だけでなく誤差範囲なども含めて論じてあると説得力が強いです。
統計手法や解釈の誤りを指摘する
これができる人たちは思考停止で「サンプルが少なすぎる」なんて言い出していないはずです。具体的なデータの性質や手法の特徴、結果の解釈などが、恐らく自身の手に余るからこそ統計学的に問題を扱う際に普遍的に考える必要がある「サンプルサイズ」に飛びついてしまうのではなくかと思います(そしてその指摘すら妥当ではなかったりする。)。
統計学に限らず、ある日突然何かができるようにはならないので、明らかに自身の手に余ることに対して断定口調や攻撃的な口調で何かを言おうとするのはやめましょう。
指摘しやすいポイントとして
「誤差範囲が考慮に入っていない」「データがモデルに明らかに従ってない(回帰線に従ってない)のに、回帰関係を前提に議論している」などです。特に回帰分析については後日、別に記事を書くつもりです。
まとめ
現在の誤差範囲と主張の論拠が許容する誤差の大きさを比較せずに「サンプルサイズが足りない」と主張しても非建設的で意味がない。
サンプルサイズが足りているかは、許容誤差を加味したときに「主張している(しようとしている)事柄の論拠が揺らぐ程度か」によって決まる。
論拠が揺らぐかは、「主張をするのに」
用語について
統計用語において、調査対象者が多いかなどは「標本が大きい」「サンプルが大きい」「標本サイズが大きい」「サンプルサイズが大きい」などというのが正しく、「標本が多い」「(表題のように)サンプルが多い」「標本数が大きい」「サンプル数が大きい」などの表現は誤りです。
表題で敢えて(統計学的に)誤った表現を使ったのにいくつか理由があります。
- タイトルとして何となくキャッチーな気がした
- 統計を大して理解していないのに、思考停止でケチをつける人は「サンプルが少ない」と言いそうだから(ほぼ言いがかり。「サンプルが少ない」という表現を使う人は思考停止でケチをつけるとは言っていないので、そこは注意)。
- 実験科学などの立場で考えると「サンプル数」という表現も納得できるものではあるから。統計用語ではサンプルは「標本」を意味しますが実験科学では「試料」を意味し、サンプル(標本)サイズが小さいことはサンプル(試料)が少ないこととイコールなのです。例えば血液サンプルといった場合、全身に流れるたくさんの血液の中から一部分だけを取り出した、全身の血液を代表していると考えられる血液の部分集合を表しており、個々の試料が"サンプル"そのものなのです。
## おまけ: 母集団の大きさと標本サイズ
上述の通り、母比率とサンプルサイズが与えられた時の標本比率の誤差範囲というのは、当該回答者(賛成と答えた人など)の人数kがn=サンプルサイズ、p=母比率の二項分布に従うと考えてkの標準偏差を元に標準誤差を計算して導出します。
この二項分布というのは確率pで当たりのクジをn回引いた時に当たりが出る回数kの確率分布なのですが、これは「復元抽出」であることが前提です。
復元抽出とは、一度引いたクジを元に戻す方法で、非復元抽出は戻さない(どんどん残りクジ数が減っていく)方法です。アンケートなどの調査は通常、同じ人から重複して答えられることを避けるので非復元抽出であり、二項分布の前提条件を満たしません。
そして、非復元抽出の時の確率分布を超幾何分布と言い、厳密にモデル化すると超幾何分布を使用する必要があります。
そこで、母比率p一定の元で、さまざまな母集団の大きさ及びサンプルサイズの時の標準誤差を示したのがFig. 1です。先に注意点ですが、特にp=0.01などでギザギザしているのは推定エラーではなく、「母比率一定」の母集団を作れないことに由来します(例えば母種団130人で1%だと回答者は1.3人となってしまうため1人している)。これは「母比率一定」の条件のまま母集団が小さい時まで同じ基準で比較することによる限界であり、今考えている標本比率で母比率を推定した際の誤差とは関係がないため頭の中で無視して、滑らかな曲線になっていると思い込んでください。
pが母比率、Nが母集団の大きさ(横軸)、nがサンプルサイズ(色)でS.E.M.(縦軸)が標本比率の標準誤差です。
一つわかることはサンプルサイズに関わらず母集団が大きくなるにつれて、誤差が大きくなるもののある程度大きくなると一定に落ち着くいうことです。この落ち着いた時の誤差が二項分布で推定した誤差と一致します(Fig. 2)。
Fig. 2 母集団が大きいとき(N=1000,000)の超幾何分布と二項分布の標準誤差。赤の実線が超幾何分布、青の波線は二項分布の標準誤差。
なぜなら、標本集団に比べて母集団が大きければ大きいほど復元抽出と非復元抽出の差は無くなるからです。例えば1億人から無作為に100回復元抽出で選ぶ際に、同じ人が2回選ばれる事象など無視しても結論に影響しないからです。
つまり、十分母集団が標本に比べて大きい際は二項分布で推定してよく、母集団と標本集団の大きさの差が小さい場合には悉皆調査に近くなるので二項分布を仮定した場合よりも誤差はさらに減ることになるのです。
つまり、二項分布推定が可能なときは「母集団の大きさは精度に関係ない」と言えますし、できないときは悉皆調査に近くなり誤差が小さく抑えられているときであるので「母集団に比べて標本が大きいから精度が高いとき」であるために「母集団に比べて標本が小さすぎる」という指摘は的外れになります。
結論を繰り返しますと、
- 母集団が標本に比べて十分大きいときは母集団の大きさは精度に関係ない
- 母集団の大きさは精度に影響するのは、標本が大きくて二項分布の仮定よりも精度が高いとき
となります。そもそも小標本で調査しているときは二項分布をもとに精度を出しているので標本比率が低いことを気にする意味はありません。
ちなみにですが、母比率pの時と1-pの時で誤差は同じになります。これは
真の成功確率10%の時の標本比率の精度と、真の成功確率90%の時の標本比率の精度は同じということです。どちらを成功と呼ぶかだけであり10%:90%か90%:10%かで精度が変わるわけないからです。
Fig. 1を見てわかる通り、絶対誤差はp=0.5の時に最大になります。50%:50%の時に最も大きく誤差が乗ります。
しかし、相対誤差で見ると結論は真逆になります。相対誤差を$\frac{S.E.M.}{min(p, 1-p)}$と定義します。例えば、60%:40%の時に1%の誤差が乗っても対して問題ではないですが、1%:99%や99%:1%の時に1%誤差が乗るとなると結構話が変わってきやすいです。細かい方の確率が正確に見積もれているかに関心があるので$min(p, 1-p)$となっているのです。
その相対誤差を示した場合がFig. 3-4です。微細な確率を正確に推定する必要があるならその分、サンプルサイズが必要になります。
重要なのは「母集団と標本集団の大きさの比率」ではなく「母比率とサンプルサイズのバランス」です。母集団に1%しかいないのに無作為抽出で100人しか調べていないと、たまたま1人いたら1%, 2人いたら2%, いなければ0%というように誤差の影響を受けやすいのです。
Fig. 3 超幾何分布における相対誤差
Fig. 4 母集団が大きいとき(N=1000,000)の超幾何分布と二項分布の相対誤差。赤の実線が超幾何分布、青の波線は二項分布の標準誤差。