■Summary
こんにちわ!
本日も統計やConputingのことについてしっかり理解を深めていけたらなと思います😀
それでは、いっきましょーー!
この記事では私自身モ勉強中であるベイズ統計学について己のベイズ統計についての理解を深めるとともに、この記事をご覧になった私と同じようなベイズ統計をはじめとした統計を学ばれている方の助けになればと思い記事を書いていこうと思います!
この記事では、
「ベイズ統計学について基礎的な理解を深めること」
を目的としたいので、ベイズ統計学について基礎的な部分を超えてさらに深く学びたいという方には易しすぎるかもしれませんのでその点はご了承くださいね😪
(ベイズの事前分布や共役事前分布、信用区間、MAP推定量、HAP区間、MH法は別の記事に書いていきます!)
■ベイズ統計学の起源
参考URL:https://liberal-arts-guide.com/bayesian-statistics/
それでは、先ず手始めにベイズ統計学とその歴史について軽く触れておきます!
そもそも統計の手法自体は、紀元前3000年にはエジプトにて「ピラミッド建設のための人口調査」として用いられたのが起源となるようです。
すごく大昔から使われていたんですねぇ…😲
著者も驚きを隠せません…!!!
まず、統計が学問として認知され始めたのは、統計学の父と呼ばれるウィリアム・ペティの「政治算術」が発表された17世紀頃のようです。
ベイズの定理の原型は1740年代頃にトーマス・ベイズという牧師が趣味の数学の研究をしている際に発見しましたが、初めてベイズの定理が我々の知る式の形で現れたのは19世紀初頭、ピエール・シモン・ラプラスによって発表された論文になります。
ベイズ統計学の手法自体は頻度主義統計学のものよりも早く存在していたことに驚きを隠せない方もおられるのではないでしょうか?
それにも関わらずベイズ統計は統計学の覇権を取ることが出来なかったのは事前分布という確率分布のあいまいさが研究者の間で受け入れられず、また完璧に手続き化された頻度主義統計と比較してベイズ統計は複雑すぎて、データ分析者に拒絶されてしまったからだと伝えられています。
その後、研究は進められ19世紀後半にフィッシャー・ネイマンらが頻度主義統計学を大成させました。頻度主義統計学は徹底的に手続き化された為、統計学者ではないデータ分析家(自然科学者、人文科学者、社会学者など)に広く受け入れられ急速に広がり統計学の覇権を握りました。
(from https://mathshistory.st-andrews.ac.uk/Biographies/Bayes/)
■ベイズ統計の理論的な側面の導入
ベイズ統計学の歴史について軽く触れたところで次はベイズ統計学のイメージというものを頻度主義との違いも含めて解説していきたいと思います!
まず皆様統計学といいますと、多くの方が頻度主義の方の統計学をイメージされるのではないでしょうか??
よく一般的に大学などで基礎的に学ばれる統計学は頻度主義の方だと思います。
以下の画像を確認していただければ非常にわかりやすと思います
(from https://liberal-arts-guide.com/bayesian-statistics/)
ここでは簡単に統計における頻度主義とベイズ主義について簡単に違いをまとめようと思います!
頻度主義の例として仮説検定などを挙げれば、正規分布についての検定では前提として連続的な確率変数が正規まれかどうか分布に従うということを前提に置いたものでしたね。つまり、真のパラメータはすでに決まっておりそのうえで得られたデータが確率的にまれかどうかを検定していたのですが、その際にはパラメータ自体は定数として扱われていて、得られたデータの値が確率的に変動するということが言えます。
一方で、ベイズ主義に関しては現在手元にあるデータに基づいて、事前分布、事後分布を用いてどんどんと適切なパラメータを更新していくということを行います。その際には、いま手元にあるデータが、どのようなパラメータに基づく母集団から得られたのかということを考えようとしているわけですね。
統計学で有名なBayes Theoremも実際には事前分布から事後分布へと情報を更新していくための重要な道となっているんですよね。ベイズ統計を学んでいくと本当にあの有名なBayes Theoremの重みが実感できます。(このあたりの知識等に関する深掘りは別の記事で行います!)
(from https://ericcastellanos.me/post/a_gentle_introduction_to_bayesian_statistics/)
いま仮に少しわかりやすく以下のような例を考えてみると:
「男性の体重について考えまる。いま男性の体重の母集団分布が平均μ(未知パラメータ)、分散100の正規分布に従っていて、そこから100人調査して標本平均70㎏を得たとする。」
この場合には頻度主義だと
母平均がμ(未知だが、実際に存在する値:定数)である母集団に対し、得られたデータ70㎏がどのくらいの確率で得られるか、さらには得られたデータから母平均を推測、検定・・・ということを行っていくかと思いますが、
一方でベイズ主義では、
70㎏というデータが、どのような(母平均がμである)母集団から得られる確率が高いか、ということを考えます。例えば、母平均が70㎏である母集団からデータ70㎏が得られる確率は高いですが、母平均が60㎏である母集団からデータ70㎏が得られる確率は低くなります。このように、母平均μを動かして考える、つまり、パラメータμを変数として考えるのがベイズ論の考え方です。
さらにシンプルにまとめれば、
…………………………………………………………………………………………………………………………………
・頻度主義では:
「真のパラメータ」はすでに決まっており不変である。(固定)
「データ」はそれが従う母集団を仮定され、そのうえでデータが確率的に変動する。(変動)
・ベイズ主義では:
得られた現在手元に得られたデータ自体がどのような分布から得られたかということを考えるため、得られた「データ」は不変である。(固定)
「パラメータ」は事前分布や事後分布を用いてどんどんと更新されていく。(変動)
…………………………………………………………………………………………………………………………………
という風に理解ができそうですね!
こちらの記事でもわかりやすい例を出しておられたのでもっと詳しく具体的に考えたいという方は一度参照してみてくださいね🤗
■まとめ
ここでは統計学における頻度主義とベイズ主義の2つの流派のうちベイズ主義について解説しました🐶🎈🎁
一般的ベイズ主義は与えられたデータに対してその人自身の考えが頻度主義の方法よりも反映させやすいですがその性質が我々にとって良い時もあれば悪い時もあります。
特に科学や、経済学、心理学等世の中で広く用いられている統計の手法は頻度主義のものが多いですが、それはやはり頻度主義であればより客観的にデータを分析し社会のためにその成果を生かすことができるということに由来するのでしょう。
統計だけではなくすべてのことに言えるのでしょうが、それぞれ良いところも悪いところもあってがあってそれが当たり前ということですね。
しかしながら、頻度主義とベイズ主義それぞれに強みと弱みがあるためどちらの方が優れていてどちらが劣っているとか、どちらが正しくてどちらが間違っているかなどという議論はまったくのナンセンスな議論にしかなりえずそれぞれの良さを生かした活用の仕方が求められるのだと思います。
統計だけではなくすべてのことに言えるのでしょうが、それぞれ良いところも悪いところもあってがあってそれが当たり前ということですね😄
本日は一旦ここまでにして今後はもっとベイズ統計をはじめとした統計学のトピックや、プログラミング関係の話題についてもまとめていこうと思います!」
この記事を読んでいただいた方が、少しでもベイズ統計学について理解が深まっていただけたならとてもうれしいです!
また、今後はもっと応用的な話題や、Python を用いたコードの実装もどんどんやっていこうと思います👨🦼👨🦼👨🦼👨🦼👨🦼👨🦼
それでは、またお会いしましょーーーー! さようならーーーー!
皆様、見てくださりありがとうございましたーーーー!
■Reference
・統計学実践ワークブック:
・https://zenn.dev/hellorusk/articles/8d48a37aa35283
・https://liberal-arts-guide.com/bayesian-statistics/
・https://ai-trend.jp/basic-study/bayes/basic-2/
・https://ericcastellanos.me/post/a_gentle_introduction_to_bayesian_statistics/