はじめに
この「Pythonで基礎から機械学習」シリーズの目的や、環境構築方法、シリーズの他の記事などは以下まとめページを最初にご覧下さい。
今回は、ベイズを勉強しようとしたのですが、恥ずかしながら自分のレベルではちゃんと説明できるほど理解できませんでした。
調べるうちに色々有用と思われるサイトや書籍をまとめました。また自分が再チャレンジするためと、こんな情報でも役にたつ人がいるかもしれないので、恥を忍んでここに公開します。
ベイズとは?
全くうまく説明できる自信が無いので、分かりやすいと思われるサイトをリンクします。一言でベイズといっても、ベイジアンとかベイズ統計学とかベイズ推定とかベイズの定理とか、ベイズと名がつくものが色々あって初心者は混乱しがちです。
多項式あてはめで眺めるベイズ推定~今日からきみもベイジアン~
ベイズの定理
ベイズ統計学の根幹をなす(と思う)定理です。式は以下の通りです。
$P(X)$:事象 $X$ が起きる確率
$P(Y|X)$ :事象 $X$ が起きたもとで事象 Y が起きる確率
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
この式自体は、そこまで難しいものではなく、条件付き確率から求めることができます。以下のヨビノリたくみ先生の動画が分かりやすいと思います。
その他、参考になりそうなリンクをはっておきます。
ベイズの応用例
ベイズの応用例は多岐に渡ります。よく例に挙げられるのは以下です。
- 迷惑メールの分類
- 確率ロボットの分野(SLAM等)
- 検査の罹患率(病気である確率)算出
- 機械学習・ディープラーニング
迷惑メールの例は、以下参照下さい。
具体例でわかる!ベイズ推定とベイズの定理
検査の罹患率は、今ホットな話題ですね。以下の記事もベイズを用いて計算されています。
COVID-19 日本国内の潜在的な陽性者数を推定する試み
機械学習・ディープラーニングとも関係が深く深層学習はガウス過程という話もあるようです。正直全然理解しきれていません。精進したいと思います。
PRML(パターン認識と機械学習)
PRMLはPattern Recognition and Machine Learningの略で、日本では「パターン認識と機械学習」という名前で売られている本のことです。ネットでは黄色本とか、ビショップ本とか呼ばれることが多いです。これはほぼベイジアンのための本で、ベイジアンになるためには、これを読まないといけないと言われている本です(多分)。
正直私は全然読みこなせていません。
PRML原著
黄色本、買おうとすると高いのですが、実は英語版であればPDFが無料で公開されています。
PRML、英語版はPDFが無料公開されていることをフォロワーさんに教えていただく。そして、中身に微かに見覚えあるのでこれ挫折済みのやつだ https://t.co/yJBtbp1JxI
— からあげ (@karaage0703) October 16, 2019
「Pattern Recognition and Machine Learning by Christopher Bishop」と書かれているリンクをクリックするとダウンロードできます。
PRML解説
多くの解説がネットにあります。本書だけでは途方にくれてしまう方は、ガイドとしてどうぞ。私はこれらがあっても、全然読みこなせませんでした。
パターン認識と機械学習の学習 普及版
main.pdfというリンクからダウンロードできます。
PRMLのアルゴリズムをPython(ほぼNumpyだけ)で実装
インターネット各地に散逸する「パターン認識と機械学習」の解説資料を集約するリポジトリ
まとめ
ベイズに関しては、ほぼリンクだけで終わってしまいました。ちゃんと理解してからまとめようと思ったのですが、調べた内容がいつまでも下書きのまま残ってしまっているのも勿体無い気がしたので、一区切りということで公開することにしました。
他、初学者に役立つ情報あればありがたいです。いつかPRMLを読みこなして立派なベイジアンになりたいなと思っています。