個人的な備忘録：ベイズ統計学が全くわからなかったので、理解を深めるために記事としてアウトプットしてみた

Last updated at 2025-01-15Posted at 2025-01-15

はじめに

正直なところ、ベイズ統計学については全くの初心者です。「ベイズ統計学の『べ』」もわからないほどですが、思い切ってこの記事を書いてみることにしました。

まずお伝えしておきますが、この記事の内容はChatGPTと会話しながら作成したものであり、私自身の理解が十分とは言えません。

しかし、苦手な分野でも積極的にアウトプットすることで、自分の成長につながると信じています。そこで、この記事としてまとめてみることにしました。

私が受講しているITスクールで、尊敬する講師の方がベイズ統計学についてリアルタイムで講義をしてくださいます。

内容についてはまだ十分に理解できていない部分が多いですが、とりあえずアウトプットすることで少しでも前進したいと考えています。

温かい目で見守っていただけると幸いです。

ベイズ統計学とは、確率を「ある出来事が起こる可能性」として考え、新しい情報を得るたびにその確率を更新する方法です。

これを可能にするのが「ベイズの定理」で、過去の知識（事前確率）と新しいデータ（尤度）を組み合わせて未来を予測します。

日常では、天気予報や医療診断などに使われています。

新しい情報を取り入れて柔軟に判断を改善するのが特徴です。

ベイズ統計学の中心には「ベイズの定理」があります。ベイズの定理は以下のように表されるみたいです。

データを観測する前に持っている知識や仮定を、確率分布として表現します。
事前分布は、未知のパラメータについての主観的な信念や過去の知識を反映します。

観測されたデータが、特定のモデルやパラメータでどの程度説明できるかを示します。
尤度は、モデルの適合度を数値的に評価し、データを生成する確率を計算します。

ベイズの定理を使い、事前分布と尤度を基にして、データから学んだ後の信念を更新します。
事後分布は次のように表されます：

$$
P(\theta | \text{data}) = \frac{P(\text{data} | \theta) \cdot P(\theta)}{P(\text{data})}
$$

ここで：

あなたは、赤と青のキャンディがランダムに入った袋を持っています。ただし、中に何個の赤と青のキャンディが入っているのかはわかりません。

事前分布（Prior）
最初に、「袋の中の赤いキャンディの割合（赤キャンディ率）」について何も知らないと仮定します。この場合、赤いキャンディの割合は 0%～100% のどの値も同じくらいあり得ると考えます。これを 事前分布 とします。

例: 赤いキャンディの割合を 0%～100% の間で一様に分布していると仮定。
尤度（Likelihood）
袋からランダムに 10 個のキャンディを取り出して調べたところ、7 個が赤で、3 個が青だったとします。この観測データ（赤が 7、青が 3）から、「袋に赤いキャンディが多い可能性は高そうだ」と考え始めます。

尤度は、「袋の赤キャンディ率が特定の値だった場合、この観測データがどのくらい起こりやすいか」を計算します。
事後分布（Posterior）
次に、観測データ（赤 7、青 3）をもとに ベイズの定理 を使って赤いキャンディ率の確率を更新します。たとえば、「赤いキャンディが 70% くらいの袋である可能性が一番高そうだ」と結論付けられます。

新しい信念（事後分布）は、「赤いキャンディの割合は 70% の周辺が最も確からしい」と示されます。

この例では、最初の信念（赤いキャンディ率はどの値もあり得る）から始まり、観測データをもとに「赤いキャンディの割合は 70% くらいだろう」と結論を得るプロセスをベイズ統計学で表しています。

※【ポイント】
1. 最初の推測（事前分布）を立てる。
2. 実際のデータ（観測結果）を確認する。
3. ベイズの定理を使って、データに基づいて推測（事後分布）を更新する。

これは、天気予報や医療診断など、私たちの生活の中で直感的に行っていることに似ています！

ここまでお読みいただき、ありがとうございました。

今回の記事はほとんどChatGPTに助けてもらいながら作成しましたが、統計学について少しは理解の「入り口」に立てたような気がします。

これからも、わからないことに対して積極的にアウトプットすることで、理解を深めていきたいと思います。