はじめに
統計学は工学、医学、薬学、生物学、マーケティング等々データと関わりを持つ分野で使われます。もちろん、機械学習やデータサイエンス等々、多くの人が興味を持つであろう分野の基礎にもなっています。という事で統計学を勉強しようかなと考えている人、統計学に興味があるけど未着手な人に向けて、統計学の勉強へのモチベーション上げるまたは下げる事を目的とした記事です。(読了予測時間 7分)
統計学とは
統計学とは大別すると記述統計学と推計統計学に分類できます。記述統計学とはデータの特徴をより簡単に表現するという統計学です。例えば、平均値をとる、中央値をとる、グラフや表にするといった操作をする事を意味します。このデータは母集団$^1$から標本$^2$を抽出する操作で作成されたものと理解されるため、その標本に興味を持つのが記述統計学、母集団の方に興味を持つのが推計統計学と言えます。これだと少しわかりにくいので例を挙げて整理してみます。日本人全体の身長の分布を知りたいとします。このとき、日本人全員をどっかの会場に集めて一斉に身長を測定(全数調査)すれば目的は達成できますが、当然これは現実的ではありません(国勢調査とか700億円とかかかるらしいですね)。なのでこれよりはるかに少ない人数(標本調査)でこの分布を推定できないか?と考える訳ですね。こういった事を考える学問領域が推計統計学になります。あなたが将来的に理解したい分野で記述統計学で扱うような内容以上に必要な事はありますか?
- 調査対象全体の事。
- 調査対象から抜き出した一部分。
推計統計学の方法論
推計統計学には仮説検定と区間推定という2つの方法論(体系)があります。仮説検定とは母集団について設定した仮説が検証する事です。例えば、某お菓子メーカーがポテトチップスの内容量を$100[g]$と公表していたとします。いくつか購入してみると$100[g]$を下回るようなポテトチップスがある事がわかりました。ここで、公表値が$100[g]$以下であるという仮説が立ちました。この仮説は正しいのでしょうか?というような問題を考えるのが仮説検定になります。区間推定とは母数$^1$の推定する事です。『統計学とは』の章で扱った例は区間推定の例になります。母平均は$10$だ!というように一点を推測する方法を点推定、母数は$9.5~10.0$の間にあるというような母数の区間を推定するような方法を区間推定といいます。点推定の有名な例はニューラルネットワークとかで登場する最尤推定法とかですかね。
- 母集団の平均(母平均)、分散(母分散)などの分布を特徴付けるパラメーターの事。一般に母数とは全体の数や分数の分母の事を指す事があるが、統計学では異なる事に注意。
補足:標本の統計量には標本平均、標本分散など頭に標本を付け、母集団の統計量には母を頭につけます。
仮説検定の流れ
当然ながらまずは仮説を立てます。仮説は帰無仮説、対立仮説と呼ばれる2種の仮説から構成されており、それぞれ$H_0,H_1$(hypotheisの頭文字$H$を使っている)という記号を使って表現します。自分が立証したい仮説を対立仮説$H_1$、これを立証するために否定されるべき仮説を帰無仮説$H_0$と言います。$H_1$を証明するよりか$H_0$を否定する方がはるかに楽なためこの$H_0$を立てる事から始めます。例えば、
H_0: ポテトチップスの公表値は100[g]である\\
H_1: ポテトチップスの公表値は100[g]ではない
というような問題を設定します。$H_0$が否定できれば$H_1$とはいえますよね? 次に問題の条件にあった統計検定量$T$を計算し、この値が$T\geq R$であれば$H_1$を採択、$T<R$であれば$H_0$を採択という閾値$R$を設定します。そして判断という流れで行われます。細かな流れは文献などによって若干違いますが大体こんな流れで行われます。このような$R$を棄却域と呼びます。$H_0$の否定は当然、
H_2:ポテトチップスの公表値は100[g]より多い\\
H_3:ポテトチップスの公表値は100[g]より少ない
でもOKです。$H_1$のようなに違いの有無を問いたいときは両側検定、$H_2,H_3$のような大小を調べたいときは片側検定が使われます。両側、片方って何のこと?となるのはわかるのですが、今はそういう区分があるという事だけ理解しておきましょう。
仮説検定法の分類
『仮説検定の流れ』の節で問題の条件にあったという言葉を使っていますが、ここが統計学の習得が難しい点で経験が必要な部分だと思います。この問題把握のための分類方法は色々と流儀があるのですがここでは下記の5つの順番で分類します。
- パラメトリックなのかノンパラメトリックなのか
- 検定の目的は母平均、母分散、母比率、相関係数、適合度、独立性、度数、順位のどれに関わるものなのか(他にも色々あります)
- 標本数は大標本(標本数が多い)、小標本(標本数が少ない)のどちらに分類されるのか
- 母標準偏差は既知か未知か
- 対応のあるデータかどうか
パラメトリックとは英語でparametric、母数の英語はparameterと書きます。ここで察しがつくかもしれませんが、母集団の分布に関する情報がわかっているときに使用する方法です。それに対して母集団の分布に関する情報がわかっていないときに使用する方法がノンパラメトリックになります。言い換えると母集団の分布によらない検定とも言えます。ここで、ノンパラメトリックの方が便利そうと思ってしまうのですが、本来パラメトリックが使えるデータに対してノンパラメトリックを使うと$H_0$を本来棄却できるはずなのに採用されてしまうなどの欠点があります。適切な検定法を選択する必要があるという事ですね。
対応があるデータというものに対してすっきりとした説明が難しいのですが
- 同じ標本に対して条件を変えて何回か測定したデータ
- 属性(性別,年齢など)をマッチさせたいくつかの対象について測定したデータ
といったデータの事です。例えば、A,B,Cさんのランニングさせる前の脈拍と後の脈拍などです。
区間推定の流れ
仮説検定と似たような流れですが自分が明らかにしたい母数を決めます。その後、この問題に適切な検定法を選択し、信頼度を設定、計算という流れになります。区間推定は下限値と上限値に挟まれた信頼区間と呼ばれる区間の中にあるパーセンテージで母数が含まれている事を期待します。このパーセンテージは信頼度と呼ばれ、この区間に$95[%]$含まれている、$90[%]$含まれている確率を考えます。当然ながら$100[%]$なら設定した区間に母数が存在するという事を意味します。
区間推定の分類
これも仮説検定と似たようなものに注目します。
- 何を検定するのか(母平均、母分散、母比率等)
- 標本数は大標本なのか、小標本なのか
- 母標準偏差が既知か、未知か
- 対応のあるデータかどうか
仮説検定の例題
例題は思いついたら更新するかもです。基本的にパラメトリックかのパラメトリックか、判別できるような問題にはしてないです。
俺のポテト少なくなくね?
某ハンバーガーショップのポテトのsサイズの公表値は$88[g]$である。しかし、いつ買ってもポテト1,2本足りない気がした$O$君は実際に買って調べる事にした(1本はおおよそ$3[g]$)。7個買ってその質量のデータをとった。果たしてポテトは公表値よりも少ないのか?
「必ず成績が上がる」とうたう動画
Youtubeには"必ず成績が上がる"という受験生にとってキャッチ―なうたい文句を付けた動画が多く存在する。そこで、ある動画の視聴前と視聴後で成績があがるのか調査する事にした。データとしては20人分の視聴前と後のテストの得点差を持つとする。
今年の学生はできが悪いねおじさん
教育に携わっていると良く聞く言葉がある。それは「今年の学生はできが悪いねえ」である。という事でとある試験の採点結果と昨年度と今年度を比較してみる事にした。昨年度は平均点が72.3点、今年の生徒25人分の平均点は71.0点であった。果たして今年は出来が悪いのか?
俺のポテトの今
ポテト少なくね?というクレームが来てから質量のばらつきを改善するプロジェクトが立ち上げられた。従来の方法ではポテトsサイズの公表値が$88[g]$で、その分散が$4[g^2]$であった。今回開発した手法で改善されるのかを調査するため、6サンプルの質量を測定した。この手法では改善=分散が小さくなったのか?
未知との遭遇
桂木弘章はあらゆるものを透視できるという。これは超感覚的知覚(ESP)の一種で遮蔽物の後ろにある物体や、不透明な容器の内容物を判定できる能力とされている。これを検証するためにゼナー・カードを使う事にした。カードの柄をあてる事が出来るのかできないのかという実験を50回行ったところ、39回正解だった。これは偶然なのだろうか?
表が出たら心のままに生きる
額に傷だか痣だか持った少年が「表!表にしよう!今からコインを100回振って表が60回以上出たら、君は心のままに生きる」と言ってきた。理論上、表と裏の2値なので50回ずつ出るはずで、それに近いあたいならともかく60回近くもあ表はでないはず。しかし、その少年が100回投げた所、表が65回も出た。いかさまなら流石に看過できない。彼はいかさまをしたのだろうか?
銀鉱脈
方鉛鉱(galena,PbS)には数百ppm程度の銀を含む事が知られている。銀山Aではこの方鉛鉱に対して旧約聖書にも登場する灰吹法を使って銀を抽出するという方法をとっている。あらたに発見した銀山Bも方鉛鉱を主体とする銀鉱床であり、方鉛鉱の銀の含有量に差があるか気になったので各銀山からサンプルを用意し調査する事にした。
私ってきれい?
街中で無作為に人を選び、マスクを外して「私の美しさを10点満点中で評価して」と言いまわりました。これより、男性は15人、女性は8人が評価してくれました。男女間で私の美しさの評価が異なるのかしら?
区間推定の例題
例題は思いついたら更新するかもです。
SNS中毒
日本の高校生はスマートフォンと何時間にらめっこしているのだろうか。全国の高校生1000人のスマートフォンの1日の使用時間を計測したところ、平均値は77.8分であった。これより、高校生の$90[%]$の信頼区間を求めたい。
大学入学共通テスト
毎年50万人くらいの受験者が集まる共通テスト。願書提出の関係上、生徒が全国のどの程度のレベルに位置しているのか早く教えてあげたいと考えるAさん。ここには自己採点の結果が100人分ある。この結果を使って母平均がどこら辺に存在するのか分かれば、生徒の現状把握に役立つだろう。
最後に
他にも私がよく使う時空間統計解析という、空間上の点配置に潜むルールを明らかにするような分野もあったりします。地震活動を調べるETASモデルとかここら辺の学問をベースにしていますね。ともあれどうでしょう、統計学へのモチベーションは上がりましたか下がりましたか? 記述統計量らへんで十分と思った人や確率の発想を学びたい人は統計学よりも確率論を勉強の方が必要だったりします。確率論に興味があれば、この次の記事を是非読みに来てください。