第3章: 確率・統計
定義
集合
- 集合: もの(集合)の集まり
- 和集合: $ A \cup B $
- 積集合(共通部分): $ A \cap B $
- 絶対補(Aを除く全体): $ U \backslash A = \bar{A} $
- 相対補(Aを除くB): $ B \backslash A $
確率
- 頻度確率: 客観頻度、発生する頻度
- ベイズ確率: 主観確率、信念の度合い
- 確率の定義
- $ P(A) = \dfrac{n(A)}{n(U)} $
- $n(A)$は事象Aが起こる数、$n(U)$は全ての事象の数
- $ 0 \leqq P(A) \leqq 1$
- $ P(A) = \dfrac{n(A)}{n(U)} $
- $ P(\bar{A}) = 1 - P(A) $
- $ P(A \cap B) = P(B \cap A)$
- $ P(A \cap B) = P(A)P(B|A) = P(B)P(A|B) $
- 条件付き確率については下記を参照
- $ P(A \cup B) = P(A) + P(B) - P(A \cap B) $
条件付き確率とベイズの定理(Bayes' theorem)
- ある事象$ X = x $が与えられた下で、$ Y = y $となる確率
- $ P(Y = y|X = x)= \dfrac{P(Y = y, X = x)}{P(X = x)} $
- $P(B)$を事象$A$が起きる前の事象$B$が起きる確率(事前確率)、$P(B \vert A)$を事象$A$が起きた後で事象$B$が起きる確率(事後確率)とした時、
- $ P(B \vert A) = \dfrac{P(A \cap B)}{P(A)} $
$ = \dfrac{P(B)·P(A \vert B)}{P(A)} $
- $ P(B \vert A) = \dfrac{P(A \cap B)}{P(A)} $
独立な事象の同時確率
- お互いの発生には因果関係のない事象$ X=x $と事象$ Y=y $が同時に発生する確率
- $ P(X = x, Y = y)= P(X = x)·P(Y = y) $
- $ P(X = x, Y = y)= P(Y = y, X = x) $でもある
- 独立な事象の場合、(単独の)確率と、条件付き確率が変わらない
- $ P(Y = y|X = x)= \dfrac{P(Y = y, X = x)}{P(X = x)} $
- ここでXとYは独立しているので、$ \dfrac{P(Y = y, X = x)}{P(X = x)}= \dfrac{P(X = x)P(Y = y)}{P(X = x)} = P(Y = y)$
- 要はXとYは独立しているので、$ Y = y $の確率は$ X = x $の影響を受けない
例題
例題1(条件付き確率)
- 生成モデルではあるデータ$ x $について、各$ C_i $における$ x $となる確率、すなわち$ p(x \vert C_i) $と$ C_i $が出現する確率$ p(C_i) $を求めることで、$ x $がある$ C_i $に分類される確率を求める。ある$ x_i $について3つのクラスに分けたい。
- $ p(x_i \vert C_0) = 0.1 $、$ p(x_i \vert C_1) = 0.2 $、$ p(x_i \vert C_2) = 0.2 $、$ p(C_0) = 0.5 $、$ p(C_1) = 0.3 $、$ p(C_2) = 0.2 $であるとき、$ x_i $が$ C_1 $に属する確率を求めよ。
- ベイズの定理より、$ p(C_1 \vert x) = \dfrac{p(C_1)p(x \vert C_1)}{p(x)}$、また$ p(x) = \sum p(x \vert C_k)p(C_k) $であるから、$ p(C_1 \vert x) = \dfrac{0.3·0.2}{0.1·0.5 + 0.2·0.3 + 0.2·0.2} $
- $ \therefore p(C_1 \vert x) = 0.4 $
例題2(条件付き確率)
- 母集団に属する人が疾患Xに罹患している確率を1.0%とする。簡易検査薬Yは、疾患Xに感染している人に適用した場合に確率90%で陽性を示すが、疾患Xに感染していない人に適用した場合にも確率5%で陽性を示す。母集団に属する人のうち、ある1名Zに対して簡易検査薬Yを適用したところ、陽性を示した。このとき、Zが疾患Xに罹患している確率はどれだけか。
- $ p(罹患 \vert 検査陽性) = \dfrac{p(罹患)·p(検査陽性 \vert 罹患)}{p(検査陽性)} $
- $ = \dfrac{0.01·0.9}{p(検査陽性 \vert 罹患)·p(罹患) + p(検査陽性 \vert 非罹患)·p(非罹患)} $
- $ = \dfrac{0.01·0.9}{0.9·0.01 + 0.05·0.99} $
- $ \therefore p(陽性 \vert 検査陽性) = 0.153 \cdots $
期待値、分散、共分散
- 期待値
- 分布における確率変数の平均の値、「ありえそう」な値
- $ E(f) = \displaystyle \sum_{k=1}^n P(X = x_k)f(X = x_k) $
- 連続値の場合
- $ E(f) = \int P(X = x)f(X = x)dx $
- 分散
- データの散らばり具合
- 期待値からの差分の重み付き2乗和
- $ Var(f) = E((f_{(X=x)} - E_{(f)})^2) $
$ = E(f_{(X=x)}^2) - (E_{(f)})^2 $ - 別の表記($μ$は期待値)
- $ V(X) = \displaystyle \sum_{i=1}^n (x_i - μ)^2p_i $
- $ V(X) = E(X^2) - (E(X))^2 $としても計算できる
- 共分散
- 2つのデータ系列の傾向の違い
- 正の値を取れば似た傾向
- 負の値を取れば逆の傾向
- ゼロであれば関係性がない
- $ Cov(f, g) = E((f_{(X=x)} - E(f))(g_{(Y=y)} - E(g))) $
$ = E(fg) - E(f)E(g) $ - 別の表記($μ_x, μ_y$はそれぞれの期待値)
- $ Cov(X, Y) = E\lbrack (X - μ_x)(Y - μ_y) \rbrack $
= $ E(XY) - μ_xμ_y $
- $ Cov(X, Y) = E\lbrack (X - μ_x)(Y - μ_y) \rbrack $
- 2つのデータ系列の傾向の違い
- 標準偏差
- 分散は2乗されているため、元の分布と単位が異なる
- 分散の平方根を取ることによって、元の単位に戻す
- $ σ = \sqrt{Var(f)} $
$ = \sqrt{E((f_{(X=x)} - E_{(f)})^2)} $ - 別の表記
- $ σ = \sqrt{\displaystyle \sum_{i=1}^n (x_i - μ)^2p_i} $
様々な確率分布
-
ベルヌーイ分布
- コインを1回トスするイメージ
- 表と裏で出る割合が等しくなくても扱える
- $ P(x \vert p) = p^x(1 - p)^{1-x} $
- $ p $は$ x = 1 $の確率
- $x = 1 or 0$
- $ x $が0になる確率と、1になる確率を一つの式で表している
- 期待値$ \mathbb{E}(X) = p $
- 分散$ \mathbb{V}(X) = p(1-p) $
-
マルチヌーイ(カテゴリカル)分布
- サイコロを1回転がすイメージ
- 各面の出る割合が等しくなくても扱える
- $ P(x_j \vert p_j) = \displaystyle \prod_{j=1}^kp_j^{x_j} $
- $x_j = 1 or 0$
- $\boldsymbol{x}$はone-hotベクトル(1つだけ1)
- $p_j$は$ x_j = 1 $の確率
- $ \displaystyle \sum_{j=1}^kp_j = 1 $
- $x_j = 1 or 0$
-
二項分布
- ベルヌーイ分布の多試行版
- $ P(x \vert p, n) = _nC_x p^x(1 - p)^{n-x} $
$ = \dfrac{n!}{(n-x)!x!}p^x(1 - p)^{n-x} $- $n$は試行回数
- $p$は$ x = 1 $の確率
- 期待値$ \mathbb{E}(X) = np $
- 分散$ \mathbb{V}(X) = np(1-p) $
-
多項分布
- マルチヌーイ(カテゴリカル)分布の多試行板
- $ P(x_j \vert p_j) = N!\displaystyle \prod_{j=1}^k\dfrac{p_j^{x_j}}{x_j!} $
- $ \displaystyle \sum_{j=1}^kx_j = N $
- $ \displaystyle \sum_{j=1}^kp_j = 1 $
-
ガウス分布(正規分布)
- 釣鐘型の連続分布
- $ N(x; μ, σ^2) = \dfrac{1}{\sqrt{2πσ^2}} exp(-\dfrac{1}{2σ^2}(x - μ)^2)$
- 平均$μ$、分散$σ^2$
- $N(μ, σ^2)$と表現する、$N(0,1)$は標準正規分布
- 全てを足し合わせると1になる
- $ x = μ $で最大値となる
- $ x = μ \pm σ $に変曲点が生じる
最尤推定
- 最尤推定ではデータからそのデータを生成したであろう尤もらしい分布(パラメーター)を推定する
- ベルヌーイ分布での最尤推定
- n回の試行で$x_1, x_2, \cdots, x_n$が同時に起こる確率($ p $は既知、$ x_i = 1 or 0 $)
- $ P(x_1, x_2, \cdots, x_n; p) = \displaystyle \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} $
- 逆に$x_1, x_2, \cdots, x_n$のデータが得られた際の尤度関数$ L_D(p) $
- $ L_D(p) = \displaystyle \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} $
- ここでは$p$が未知
- 最尤推定では、尤度関数$ L_D(p) $を最大化するような$ p $を選ぶ
- $ L_D(p) = \displaystyle \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} $
- 対数をとると微分の計算が簡単になる、またマイナスをかけることによって、最小化とする
- $ - \log L_D(p) = - \displaystyle \sum_{i=1}^n \log p^{x_i}(1-p)^{1-x_i} $
$ = - \displaystyle \sum_{i=1}^n \lbrace x_i \log p_i + (1 - x_i) \log (1 - p_i) \rbrace $- 尤度は積$\prod$だが、対数になることで和$\sum$になる
- 対数尤度関数が最大になる点と尤度関数が最大になる点は同じ
- 対数尤度関数にマイナスをかけたものを最小化、とすることによって、最小2乗法の最小化と考え方を揃えることができる
- $ - \log L_D(p) = - \displaystyle \sum_{i=1}^n \log p^{x_i}(1-p)^{1-x_i} $
- 最小値は$ \dfrac{d}{dp}(-\log L_D(p)) = 0 $の解
- 結果的に$ p $の最尤推定値は、$ \hat{p} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n x_i $
- 最尤推定量は、尤度関数が最大になる(=負の対数尤度関数が最小になる)ように決められる、確率分布がデータに最もよく当てはまるようなパラメーターの推定量
- 導出はやや手間だが、結果的に最尤推定量は「データの平均(1が出現する頻度)」となる
- n回の試行で$x_1, x_2, \cdots, x_n$が同時に起こる確率($ p $は既知、$ x_i = 1 or 0 $)
- マルチヌーイ分布での最尤推定
- $ P(x_j \vert p_j) = \displaystyle \prod_{j=1}^kp_j^{x_j} $
- $x_j = 1 or 0$
- $\boldsymbol{x}$はone-hotベクトル(1つだけ1)
- $p_j$は$ x_j = 1 $の確率
- $ \displaystyle \sum_{j=1}^kp_j = 1 $
- $x_j = 1 or 0$
- 尤度関数$ L_D(p) = \displaystyle \prod_{i=1}^n \prod_{j=1}^kp_j^{x_{ij}} $
- 負の対数尤度関数
- $ - \log L_D(p) = - \displaystyle \sum_{i=1}^n \log \prod_{j=1}^k p_j^{x_{ij}} $
= $ - \displaystyle \sum_{i=1}^n \sum_{j=1}^k \log p_j^{x_{ij}} $
= $ - \displaystyle \sum_{i=1}^n \sum_{j=1}^k x_{ij} \log p_j $- これは分類問題のために機械学習で適用されることの多い損失関数である交差エントロピーそのもの
- $ - \log L_D(p) = - \displaystyle \sum_{i=1}^n \log \prod_{j=1}^k p_j^{x_{ij}} $
- この負の対数尤度関数の最小化はラグランジュの未定乗数法を用いて解くことができるが、結果はベルヌーイ分布と同様に最尤推定量は「データの平均(各次元において1が出現する頻度)」となる
- $ P(x_j \vert p_j) = \displaystyle \prod_{j=1}^kp_j^{x_j} $
- 一変量正規分布での最尤推定(簡略化のために$ σ^2 = 1 $とする)
- $ f(x; μ) = \sqrt{\dfrac{1}{2π}} exp(-\dfrac{1}{2}(x - μ)^2)$
- 尤度関数$ L(μ) = \displaystyle \prod_{i=1}^n f(x_i; μ) $
- 負の対数尤度関数$ -\log L(μ) = - n \log (\dfrac{1}{\sqrt{2π}}) + \dfrac{1}{2} \displaystyle \sum_{i=1}^n (x_i - μ)^2 $
- 第一項は定数なので、第二項$ g(u) = \dfrac{1}{2} \displaystyle \sum_{i=1}^n (x_i - μ)^2 $の最小化を図る(結果的に二乗和誤差の最小化となっている)
- 最尤推定量は、$ \hat{μ} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n x_i $
- 正規分布の場合も、最尤推定量は「データの平均」となる