この記事の目的と対象者
この記事は、統計をほとんど勉強したことがない人が、立派に「ベイズ統計」というナウでヤングな統計学について語れるようになるまでの道標を示します。
ドヤ顔でベイズ統計について正しいことを語れるようになる、統計に詳しい人とがガッツリ議論できるようになるぐらいまでがこの記事のゴールです。
この記事の勉強をしたところでベイズ統計を使いこなせるようになるわけではないことに注意してください。
現場で使いこなせるようになるには、プログラミングがある程度できる必要もありますし、対象となる実データも必要です。
本当に統計的処理をする前には、前処理なんかも必要ですよね……
統計を使ったデータ分析には、統計学の理論だけではなく、様々な道具を身につける必要があるのです……涙
(よみがえる眠れぬ夜のおもひでたち……)
基本的には書籍を使った勉強法を紹介していきます。
ある程度、統計学のことが分かっているよという人は、途中の本は読み飛ばしていただいても問題ありません!
ベイズ統計学とは
ベイズ統計学概要
この記事ではベイズ統計学とは?ということについては、あえて詳しく触れません。
統計学には、頻度主義とベイズ主義(細かく言うと他にも)があるということをなんとなく知っていて、それらが根本的に立場の違うものだということが分かっていれば読める記事になっています。
詳しくは下のような記事を参考にしてください!
一応言っておくと、筆者の方々ももぼやかして書いていたり、テキトーなところがあります。
とはいえ、これらの記事を悪く言っているわけではありません。
私が今書いているこの記事のゴールは、こういった記事を読んだ時にどこをどうぼやかしているのか、あるいは本当にわからずに書いているのか分かるようになろうということなのです。
ベイズ統計学について、とても重要なことだけ言っておくと、
ベイズ統計学はベイズ以外の統計学よりも絶対的にいいものでも、上位互換でもなんでもありません。
ただの思想です。
宗教です。
絶対的に正しい統計学なんてものは、ただの幻想です。
ベイズだからそれ以外の統計学の問題点をすべて解決できるなんて夢物語は、この美しくも非情な世界には存在しません。
ただあるのは、あなたがどの主義/立場を取りますか?という深淵な問いだけです。
統計学におけるベイズ統計の位置づけ
ベイズ主義という名の通り、ベイズ統計学があくまで主義/立場であるということは上にも述べた通りです。
ただ、「主義」には時代ごとに流行り廃りというものがあります。
分かりやすい例でいうと、民主主義がその最たる例ですね。
現代の先進国の人々は、民主主義を最も優れた政治的手法のように思っていますが、いつだって絶対に優れているとは限りませんよね。
民主主義以外の主義がそれなりにワークしてきた時代もあったはず?です。
もしかしたら、1000年後には民主主義なんてものはバカにされているかもしれませんよね。
統計学の世界では、近年、頻度主義が批判にさらされています。
- 統計の誤解と濫用や「p値至上主義」を憂慮しp値の6原則を発表したASAの声明に対する統計学徒の素人意見
- 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明に対する某データサイエンティストのブログの声明に対する素人()の声明
- 統計学的な有意性検定の意味のなさ
この記事を読む方は、「有意な違い」があるなんてフレーズを聞いたことがあるはずです。
20世紀の統計学の主流は頻度主義でした。
この主流たる頻度主義統計の最も便利なツールである「統計学的仮説検定」の「p値」「有意性」が批判にさらされているということです。
そこで、ベイズ統計学が頻度主義のアンチテーゼとして徐々に広がっているのです。
また、ベイズ統計を扱うためには非常に大きな計算能力が必要であり、ここ10年、20年でやっとベイズをみんなが扱えるようになったという背景もあります。
私が大学院にいた2年前には、私が専門としていた農学(生物統計)をはじめ、医療統計、心理統計などなどで、p値に頼りすぎないようにしよう主張する研究者が増えてきているように感じました。
私は、今後、イケている風(笑)を醸し出したいならベイズについて語れたほうがいいとは思っています。
統計初心者のためのベイズ入門
頻度主義入門
ベイズ主義をきちんと理解するためには、まずは頻度主義をきちんと勉強しましょう 笑
ベイズ主義と頻度主義は立場が違うから、ベイズ主義を理解するためには頻度主義を勉強しないでいいかというと、そうは問屋がおろしません。
頻度主義を勉強したくなくてベイズに逃げようとしていた人は、こっそり心を入れ替えててください 笑
その腐りきった根性を叩き直す気のない人は、そっとこの記事を閉じましょう 笑
頻度主義を勉強したほうがいいのは、
ベイズ主義を深く理解するためには、頻度主義との違いを意識しながら勉強していくのがオススメだからです。
多くのベイズについて書かれた入門書や初心者向け記事が、頻度主義との違いについて書いています。
そういったものを読む時に頻度主義の知識が必ず役に立ちます。
これは、先ほど説明したような統計学の歴史上、仕方がないことなのです。
ですので、まずは、
といった、実際に手を動かしながら統計学を学べる系の本で基礎を学ぶのがいいでしょう。
頻度主義の統計学について詳しく書かれた専門書は腐るほどあります。
ですが、急に小難しい座学に取り組んでも心が折れてしまうだけです。
上記の本は、プログラミンの初心者でも取り組める内容なので、気楽に楽しく統計学をイメージすることができます。
そして次は、少し理論的な勉強に進みましょう。
個人的には、
この本にお世話になりました。
心理学徒でなくとも非常に参考になります。
実は、心理学は、統計が進歩する土台を作った一大学問なのです。
その操作をしたことが本当に効果があるのかが一目瞭然ではなく、実験的に確かめるしかないからでしょうか。
逆言うと、心理学は、「科学」として認められるために、「統計」という客観的に見えるツールに助けてもらうしかなかったのでしょう。
これは、例えば、薬の効果を確かめたい医学でも同じです。
上記の本では、実際に心理学で統計がどのように使われているかということも踏まえて解説されており、楽しく読めると思います。
ベイズ主義入門
ここまでくれば、頻度主義のことはある程度分かっていただけたはずです。
次に、頻度主義とベイズ主義の橋渡し的な本を読みましょう。
頻度主義とベイズ主義の橋渡しというポジショニングではこの本(通称ミドリ本)以外にはありえません。
この本はこの記事以外の多くの記事でも絶賛されています。
平易に楽しく統計学の世界の広がりを感じることができるでしょう。
私もこの本を読んで統計学がもっと好きになりました。
ただ数式ばかりで、堅苦しく、楽しくないと思っていた統計学が、ミドリ本に出会って一気に色付いて見えました。
人生を変えてくれた名著と言っても過言ではありません。
ミドリ本の素晴らしいところは、
- ただの頻度主義のその先に向かうために必要な統計モデル
- ベイズ主義にはなくてはならないツールのMCMC(マルコフ連鎖モンテカルロ法)
の説明の分かりやすさにあります。
ベイズの理解には、MCMCの理解が欠かせません。
マルコフ連鎖モンテカルロ法といういかにも難しそうな名前のこいつが、ベイズを実用化するためにはどうしても必要だったのです。
同時にこいつが、計算機の能力が高まる近年まで、ベイズの貞操をかたく守っていた張本人でもあるのです 笑
この本の後は、
といった、もうちょっとベイズベイズ(笑)した本を読みましょう。
どちらも難易度はそんなに高くありませんし、テクニカルに難しい話に入りすぎるのではなく、「ベイズを使う意味」みたいなものがきちんと分かるように書かれている点がオススメです。
ミドリ本とこれらを読むと、ベイズの深い世界の入り口に立つことができるでしょう!
ベイズ入門後の勉強法
上記のような勉強過程を経た後には、やはり実際に手を動かしながら勉強してみるのがいいでしょう!
などが実際にベイズを使えるようになるための1歩ですね。
なによりも、これらの本では、手を動かしながらMCMCがきちんと理解できるようになっています。
実際にベイズを使うような人で、プログラミングができない人はいないでしょう。
なぜなら、冒頭にも説明したように、ベイズでデータを扱うためには、その他にもやらなければならないことがあるたくさんあるからです。
データを集めてきたり、くっつけたり、きれいにしたり、あんなことやこんなことをしたり。
これらの本はそれなりにプログラミングができることを前提には書かれていますが、ここまでたどり着いたあなたならきっと、本を片手に楽しいベイズライフを送ることができるでしょう。
まとめ
個人的な感想にはなりますが、ベイズは非常に面白いです。
統計という一見かたそうな学問が、ベイズを学ぶとどこか柔らかく愛らしい側面を見せてくれます。
でも、その笑顔にはどこか深い闇が見えて………
そんな不思議で魅惑的なベイズ統計学の世界を覗いてみませんか?
私的参考資料
最後になりますが、私が公開しているスライドや勉強会のアーカイブ動画も参考として掲載します。