統計的仮説検定は何に使うの?
ある問題が正しいか正しくないかを確かめたいときに使います。
例えば植物の発芽率のデータから、植物の種は正常か異常かどうかを判定したりしたいケースがあると思います。
植物じゃなくともサーバのログのあるキーワードからマルウェアかマルウェアじゃないかを判定したりしたいケースもあるでしょう。
そのような問題に統計的仮説検定を使います。
機械学習モデルの検定
あなたは今、ある機械学習モデルが異常なのか(正しく学習されていない)、正常なのか(正しく学習されている)確かめたいとしましょう。
例えば、海鮮丼の写真から海鮮丼らしさを推定する機械学習モデルが存在するとします。
このとき、海鮮丼の写真を入力として99.99%くらいで海鮮丼と推定すれば十分に学習できていると考えることができるでしょう。
逆に海鮮丼の写真を入力しているのに10%くらいの海鮮丼らしさならばそのモデルは異常だといえるでしょう。
この時、この問題は次のように場合分けできます。
- 機械学習モデルは正常である。
- 機械学習モデルは異常である。
例えば、海鮮丼らしさが10%以下の異常率の場合に機械学習モデルは異常であると定義します。
逆に10%よりも大きい海鮮丼らしさの時は機械学習モデルは正常であるとします。
**※この異常率10%以下というのは、人が妥当だと判断して決めています。**この記事の場合私が大体10%以下だと明らかに異常だよねと判断しております。人によっては50%以下だったり40%以下だったりするでしょう。
これを数式を用いて書くと次のようになります。
異常率を$p$とおきます。
「機械学習モデルは正常である。」は
$p_0=0.10$となるので
$H_0 : p > p_0$
「機械学習モデルは異常である。」は
$p_0=0.10$となるので
$H_1 : p\leq p_0$
このとき、$H_0$を帰無仮説、$H_1$を対立仮説といいます。
このとき$H_0$を正しいと判断することを帰無仮説を採択または受容するといいます。
逆に$H_1$を正しいと判断することを帰無仮説を棄却するといいます。
第2回は有意水準(P値)を用いた統計的仮説検定を紹介します。