More than 1 year has passed since last update.

一歩ふみ込むデータ分析～統計的な検定とは？～

Last updated at 2023-11-07Posted at 2023-08-30

0. はじめに

　本記事は、効果検証などで使われる「検定」というものについて、統計を専門としない方々に向けて説明することを試みた記事です。BIツールの発展もあり、統計的な検定手法は誰でも簡単に実施できるようになっていると感じています。検定を使えば、例えば施策の効果検証において「本当に効果があったのか？」を統計的な観点から分析することできるため、意思決定の際の有力な根拠となり得ます。しかしながら、何をしているのかも分からずに利用すると誤った結論を出してしまうことにつながるため、統計的な検定の考え方を簡単にでも理解していることが重要であると筆者は考えています。

　本記事では、統計的な検定の発想、ならびに関連する用語について説明します。

　なお、分かりやすさを重視するために、厳密ではない説明や正確でない表現となっている箇所がいくつかあります。また、筆者の主観を多分に含む説明も見受けられるかもしれません。可能な限り脚注で補足しますが、あらかじめご了承ください。

1. 「統計検定」とは？

　まずは「統計検定」についての認識を合わせます。なお、「統計検定」という言葉は資格試験と紛らわしいため、「統計的な検定」と呼ぶことも多いですが、この記事では「統計検定」に統一します。

　具体例から考えます。ビジネスを離れてしまいますが、よく例として挙げられる治験で考えてみましょう。飲めば脂肪の吸収を抑えてくれるダイエット薬が発明されました。その治験の被験者として「成人済みの男性」という条件で募集したところ、10人集まりました。被験者を5人ずつ、AとBの2グループに分け、グループAにはダイエット薬を、グループBにはただのビタミン剤（プラシーボ）を毎日飲んでもらい、この薬に効果があったのかを調査します。¹3週間治験をした結果、各グループの平均体重が以下のようになりました。

A 被験者No.	A 体重	B 被験者No.	B 体重
平均	63.7kg	平均	64.8kg
No.1	66.7kg	No.6	62.2kg
No.2	60.5kg	No.7	66.1kg
No.3	63.2kg	No.8	67.3kg
No.4	61.7kg	No.9	66.1kg
No.5	66.4kg	No.10	61.7kg

　この時、このダイエット薬には効果があったと言えるでしょうか？平均で見れば、薬を投与したグループAの方が、グループBに比べて1kgも体重が落ちています（3週間で1kg以上落ちたと思えば非常に効果があります）。ただし、偶然グループAに体重が低い人が集まっていただけかもしれません。この「本当に効果があったのか？」「実は偶然ではないのか？」という疑問に対し、一定の解を出すのが統計検定です。後述しますが、結論だけ言えば「差があるという主張は10%有意でもない²」という結果となり、「この薬には効果があるとは言えない」という結論になります。

2. 一歩ふみ込んで、「統計検定」とは？

　セクション1では、統計検定によって「効果があったかどうか」を確かめることができることを説明しました。しかし、ここでもう一歩ふみ込み、何をもって効果がありそう・なさそうという結論を出しているのかを説明します。

検定の発想を体感する

　まずは具体例から考えてみます。またビジネスとは離れてしまいますが、「コインを10回投げて表が出た回数を競う」というゲームをすることを考えてみます。3回勝負をしたところ、以下のような結果になりました。

	第1勝負で表が出た回数	第2勝負で表が出た回数	第3勝負で表が出た回数
あなた	5回	4回	5回
勝負相手	8回	8回	9回

　あなたが表を出した回数は平均4.7回だったのに対し、相手は平均8.3回も表が出ています。ちょっと違和感がありますね。実際に「コインを10回投げる」を100セットくらいやってみればわかりますが、8回も表が出ることはほとんどないです。　以下は、プログラムで100セット分シミュレーションしてみた結果です。

両者の平均得点である「4.7回」と「8.3回」の位置には縦の点線を引きました。コインの表・裏がどちらも同じ確率で出ることを考えれば、「おおかた半々で表裏が出ている」という状況である4回や5回になるセットが多くなります。そのため、「4.7回」の点線のあたりの棒が高くなっていることは頷けます。一方で、8回以上も表が出るセットはほとんどないことは、シミュレーションの結果からも分かります。「8回」が出たのはたった4セットで、割合で言えば4%（4/100）です。つまり、相手は4%ほどの低確率を2回も引き当てています。「豪運だった」という結論はロマンがありますが、「相手は表が出やすいイカサマコインを使っているのでは？」という疑問を抱く人も多いかと思います。
　あなたは、実際に相手のコインを奪って「10回投げる」を100セット行ってみました。すると、以下のようなグラフになり、やはり相手がイカサマコインを使っていたということが分かりました。

治験の例に当てはめてみる

　次は治験の例に当てはめてみましょう。まずは、成人男性における各体重の人数比を想定してみます。適当に1,000人ほど成人男性を選んで体重を測った時、以下のようなグラフが描けるのではないでしょうか。

新薬を適用したグループAの平均体重「63.7kg」を赤の点線、プラシーボを適用したグループBの平均体重「64.8kg」を黄色の点線で記載しました。

　コインの例では、対戦相手の「10回中8.3回も表が出る」という事象が、普通のコインを想定した時のボリュームゾーン（4~6回）から大きくかけ離れていたので、相手がイカサマコインを使っていることは明白でした。
　では、今回の例はどうでしょうか？グループ間で1kg差があり、個人的には1kgも体重が落ちたら非常にうれしいです。しかしながら、グループBの平均「64.8kg」もグループAの平均「63.7kg」も、中心のボリュームゾーンに重なっていると言えます。つまり、「一般的な成人男性の体重」を想定した場合に、「グループAの平均値が異常なほど低い」とは言い難いということです。

　例えば以下のグラフのように、グループAの平均値がボリュームゾーンから大きく外れていれば、ほぼ確実に新薬に体重減少効果があると言えるでしょう。

　しかし、「63.7kg」程度では、たまたまグループAに体重が低めの人が集まっていただけで、「別の5人を集めてもう一度治験をしたら平均値が65kgくらいになる」という可能性も捨てきれないと言えるでしょう。

具体例の総括

　このように、「一般的な状態の棒グラフを想定した時に、確かめたい値が異常値になっているか？」という基準で、統計検定は実施されます。治験の場合、「何もしていないグループの体重の棒グラフを考えた時、新薬を投与したグループの体重の平均値が異常値になっているか？」という基準で、新薬の効果を判断しました（そして、「異常値とは言えない」＝「効果があったとは言えない」という結論になりました）。別の例を考えると、ある施策の効果を測る場合は、「その施策を実施する前の棒グラフを想定した時、実施後の値が異常値になっているか？」という基準で、施策効果の有無を判断します。³

　なお、実際に検定を行う際には、このような感覚的な判断ではなく、数値計算によって効果の有無が判断されます。数値計算には統計・確率論の知識が必要なので、本記事では割愛します。

用語の整理

　最後に、2つの体験に紐づけて、専門用語を紹介します。

分布

　これまで「グラフ」と呼んでいた、「どのような値が出やすいのか」や「各値に何人集まっているか」という情報のことを「分布」（正確には確率分布）と呼びます。言葉の意味通り、「どのようにデータが分布しているか」を表しています。⁴棒グラフはあくまで1つの表現方法であり、「分布」という言葉はその情報のことを指しています。例えば、値の性質によってはヒストグラムによって表します。

トリートメントグループ

　治験において新薬を投与したグループのように、効果を検証したいグループのことを「トリートメントグループ」と呼びます。日本語だと「処置群」「介入群」などの訳語が当てられています。

コントロールグループ

　治験においてプラシーボを与えたグループのように、効果を測るための基準とするグループのことを「コントロールグループ」と呼びます。日本語だと「統制群」という訳語が当てられます。治験の例ではプラシーボを与えましたが、基本的には何もしないグループとなります。統計検定では、このコントロールグループと比較してトリートメントグループにどれほど効果があったかを判定します。

有意、有意水準

　統計検定の結果報告を聞く際に、「有意水準5%で検定した」や「有意な差が確認された」などの言葉を耳にするかもしれません。この言葉の意味を正確に理解するには、統計・確率論に対する深い理解が必要ですが、御幣を恐れいずに言えば「検定の妥当性のレベル」くらいの意味でとらえても差し支えないと思います。例えば「検定の結果、ある施策の効果が有意であった」と言われたら、「その施策は効果がある」という主張が統計的に妥当である、ということです。

　ちなみに、「～%有意」と言われた場合、数字は小さい方がより妥当性が高いです（5%有意＜ 1%有意）。⁵
　また、ビジネスや社会現象に対する検定では、基本的に「5%有意か否か」で確認することが多いので、例えば「10%有意だった」という報告を受けた場合はその報告を注視した方が良いかもしれません（もちろん、業界やビジネス目標によって異なるので、一概には言えません）。

3. 終わりに

　統計検定の発想、および用語について整理しました。統計検定が、「施策実施前の分布（コントロールグループの分布）を想定した時に、施策実施後の値（トリートメントグループの値）が異常値と言えるか？」という基準で施策の効果を判定している、ということを理解いただけたのであれば幸いです。
　なお、議論を簡略化するために、重要な概念である「帰無仮説」や「p値」などの説明は割愛しています。統計検定についてより深く学びたい場合は、例えば「t検定」などで検索いただくか、資格試験の統計検定2級を受験をしてみると良いかと思います。

　次回の記事ではビジネスに適用することを想定して、使える検定手法と利用上の注意をまとめたいと思います。

参考文献

一般社団法人日本統計学会, 『日本統計学会公式認定統計検定準1級対応統計学実践ワークブック』, 学術図書出版社

「グループAの治験前の体重と治験後の体重を比べればよいのでは？」という疑問をいだかれた方もいらっしゃると思います。こういった実験においては、「同一人物に対して実験前後で比較する」ことが妥当である場合もあれば、そうでない場合もあります。グループを2つに分ける必要性についてはこちらの記事でも整理しているので、よろしければご参照ください。参考までに、本件においては、仮に「グループAの治験前の体重と治験後の体重を比べる」という方法をとった場合、それが本当に薬の効果であるかを判断することが難しくなります（いわゆる「プラシーボ効果」を否定できなくなります）。単に「実験前後でグループAの体重が落ちた」という結果だけでは、例えば、「薬を毎日飲むことによって体重やダイエットに意識が向き、自然に体重を減らすような生活をしていた」や、「治験という特殊な環境下でのストレスで食事があまりとれなくなった」などの理由も、可能性として残ります。今回の例のようにグループBを作っておけば、そういった理由の場合は「グループAもグループBも同程度に平均体重が減少した」という結果になります。逆に、「グループAの平均体重は減少したが、グループBの平均体重は減少しなかった」や「グループAもグループBも平均体重が減少したが、グループAの方がより大きく減少した」という結果になれば、体重減少の理由が薬によるものである可能性が高いと言えます。そして、「グループAとグループBの体重減少にどれほど差があれば、薬の効果であると言えるのか？」という問いに対し、一定の解を与えるのが統計検定です。 ↩
このような言い方は厳密ではなく、本来であれば「グループ間の平均体重に差がないという帰無仮説が10%有意水準であっても棄却できないため、グループ間の平均体重に差があるとは言えない」という主張になります。ただし、本記事では複雑さを避けるために帰無仮説という概念は導入しません。初学者の方にも分かりやすくするために厳密でない表現になっている旨、ご了承ください。 ↩
この書き方だと、「差が小さい場合は統計検定で『効果あり』という結果にならない」という印象を受けてしまうかもしれませんが、もちろんそんなことはありません。データ量やデータの性質によっては、差が小さくとも効果ありという結果になることはよくあります。施策の効果測定に着目した検定の使い方や、統計検定を使う際の注意点などについてはこちらの記事で整理してみたので、よろしければご覧ください。 ↩
「ある値に何人いるか」をまとめたものを一般的に「ヒストグラム」と呼びます。棒グラフはより広い表現で、「各項目ごとの値を棒で示したもの」のことを呼びます。特にデータの性質によって呼び分けるものではありませんでしたため、訂正いたします。棒グラフは「ある値に何人いるか」をまとめたものであり、ヒストグラムは「ある値の"範囲"に何人いるか」をまとめたものです。扱っているデータの性質によって使い分けられます。本編では言及しませんでしたが、コイン投げの例は棒グラフ、治験の例はヒストグラムです。ただし、山型になっているグラフを広く「ヒストグラム」と呼んでいるケースも多いです。 ↩
もう少し詳しく言うと、「5%有意で効果があると言える」という結論の意味は、「本当は効果がないにもかかわらず『効果がある』という結果になってしまっている可能性が5%はある」ということです。「1%有意で効果があると言える」の場合は、「本当は効果がないにもかかわらず『効果がある』という結果になってしまっている可能性が1%はある」ということです。そのため、「1%有意」の方が「5%有意」よりも妥当であるということになります。なお、帰無仮説の概念を使わない説明となっている以上、若干不正確な説明である旨はご了承ください。 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

一歩ふみ込むデータ分析 ～ 統計的な検定とは？ ～