ベイズの学習を始ようと教科書やWebサイトを見てみるとだいたい、有名でキャッチーな話題から入りたがるためか、「条件付き確率は難しいぞ!」と初学者を怖がらせるためか、いきなりモンティ・ホール問題の紹介が始まったりするわけですが、初学者に初っ端からモンティ・ホール問題を解説したところであまり教訓がなく(答えが確かにそうなるという確認ができるだけで、自分で条件付き確率の考え方ができるようにならない)、ただ怖がらせる意味しかないと思っています。
無秩序に「条件付き確率はこの問題が難しい」「あの問題も難しい」と並び立てられても「なんだかよく分からなくて怖い」となるだけだと思いますが、引っかかってしまう問題は背後に何種類かの共通パターンが存在していまして、そのパターンを身につければそこまで難解なものではなくなります。
そこで「どのポイントで初学者は引っかかってしまうのか」をパターンごとに分類して、連載という形で解説して行こうと思います。
件のモンティ・ホール問題は第2回(今回は第0回)で解説しますが、第1回が最重要だと思います。
今回の「難しさ」はあくまでも学習上のものであり、実務上のものは扱いません(実務上どう難しいかは扱う対象と目的によるはずです)。
今回は、各回でどういう内容を論じる予定であるかの紹介です。
第0回と第1回はほぼ同時に公開しますが、それ以降は随時追加していきます。
連載内容
-> 今ここ 初学者が条件付き確率やベイズの学習時にひっかりやすいポイント整理【ベイズ・条件付き確率連載#0】
・条件反転の誤謬【ベイズ・条件付き確率連載#1】
・「共通の結果」の固定【ベイズ・条件付き確率連載#2】
・事前分布・尤度・事後確率・周辺化【ベイズ・条件付き確率連載#3】
・サンプリングアルゴリズム【ベイズ・条件付き確率連載#4】
・前提条件不揃い問題【ベイズ・条件付き確率連載・おまけ回】
条件反転の誤謬
どの変数で条件付けられており、どの値を比較しようとしているのかが明確に理解できないとそもそも条件付き確率が理解できるようになりません。「サッカー部員の足が速い確率」と「足が速い人がサッカー部員の確率」を混同するという過ちです。有名な問題ですと「医療診断における偽陽性、偽陰性に関する問題」などが該当します。
共通の結果を観測
2変数(X, Y)について、その2変数の「共通の結果」として現れてくる変数Zを固定して考えると着目していたX-Y間に従属性がもたらされる可能性があります。有名な問題ですと「車の燃料装置問題」があります。「モンティ・ホール問題」も実はここです。
事前分布・尤度・事後確率・周辺化
ベイズ統計の基本概念である事前分布・尤度・事後確率は条件付き確率についてきちんと理解していると(実務上ではなく概念的には)そこまで難しくありません。#1の「条件反転の誤謬」回で紹介した概念に照らし合わせてベイズの基本概念を説明します。また、周辺化についても単に計算方法についてのみならず、データ分析上、何を意味するのか、周辺化すると何が嬉しいのかという観点から説明します。
サンプリングアルゴリズム
「ベイズと言ったらMCMC」のように連想ゲームかの如く名が挙がるMCMCなどのサンプリングアルゴリズム。個別のアルゴリズムの仔細よりもサンプリングとはなんなのか、なぜ必要なのか、何をしようとしているのかについてについて、初学者はきちんと理解する必要があると考えておりそのあたりを重点的に解説します。
前提条件不揃い問題
条件付き確率の計算問題などで初学者を困惑させがちな問題の一部がこのカテゴリに属しており、実際のデータ分析でも示唆的な問題ですが、基礎理論の学習上で遭遇することはあまりないので、おまけとして解説します。条件付き確率で同じ条件を形式的に与えていても、実際同じ条件を与えられていないという問題であり、実データ解析では頻繁に、(条件付き確率を明に使用していなくても暗に)関係してきます。シンプソンのパラドックスもここに該当します。