More than 5 years have passed since last update.

IPFactoryAdvent Calendar 2019

@maguchi_isc

ガウス分布の導出

Last updated at 2019-12-02Posted at 2019-12-02

自己紹介

IPFactory Advent Calender 2019 二日目

IPFactoryに所属している２年生
主に機械学習について学んでいるので、本記事も機械学習について書いてみます
Twitterはこちら

IPFactoryとしてAdvent Calenderをやるのは(多分)初めてということなので、初心に帰ったテーマにしました

概要

機械学習を学んでいる人であれば、ガウス分布を親の顔より見たことがあると思います
しかし、どうしてあの形なのか、どうしてあの数式になるのかを理解するのは難しかったです(個人の感想)

ガウス分布の導出を本記事の最終ゴールとし、導いていく過程でそのあたりを理解していただけたらと思います

ガウス分布とは

まず数式を見ていきましょう
$$N(x|μ,σ^{2}) = \frac{1}{(2\pi \sigma ^{2})^{\frac{1}{2}}}e^{ -\frac{(x-\mu )^{2}}{2\sigma ^{2}}}$$

となっています、グラフはこのような形を取ります(値については適当なので形だけ見てください)

x軸を確率変数をとしたとき、y軸の値が確率密度となります

ガウス分布の積分

確率とは起こりうる全ての事象を足し合わせたとき１になります
実際にガウス分布がその性質を満たしていることを確認していきましょう

まずは準備として、ガウス積分といわれる、簡単な方から見ていきます
$\int_{-\infty }^{\infty }e^{-ax^{2}} dx = I$ とおく

$I^{2} = \int_{-\infty }^{\infty }e^{-ax^{2}} dx\int_{-\infty }^{\infty }e^{-ay^{2}} dy$

$ = \int_{-\infty }^{\infty}\int_{-\infty }^{\infty}e^{-ax^{2}-ay^{2}}dxdy$

$ = \int_{-\infty }^{\infty}\int_{-\infty }^{\infty}e^{-a(x^{2}+y^{2})}dxdy$

ここで $ x = r \cos\theta, y = r \sin\theta$ とする
積分範囲については、全ての空間なので極座標系で考えると

こんな感じで$\theta$をぐるぐる回しながら$r$を0から大きくしていくことで、全空間カバーすることができるイメージを持ってもらうとわかりやすいと思います

$I^{2} = \int_{0}^{\infty}\int_{0}^{2\pi}e^{-ar^{2}(\sin^{2}\theta+\cos^{2}\theta)}d\theta dr$

$ = \int_{0}^{\infty}\int_{0}^{2\pi}e^{-ar^{2}}d\theta dr$

$\theta$が式の中から消えたので、先に計算して

$=2\pi\int_{0}^{\infty}e^{-ar^{2}}dr$

あとは普通に積分すると

$=\frac{\pi}{a}$

$I = (\frac{\pi}{a})^{\frac{1}{2}}$

ガウス分布では上記の式で$a$に当たる部分が$\frac{1}{2\sigma^{2}}$になっているので

$I = (2\pi\sigma^{2})^{\frac{1}{2}}$

となり

$N(x|μ,σ^{2}) = \frac{1}{(2\pi \sigma ^{2})^{\frac{1}{2}}}e^{ -\frac{(x-\mu )^{2}}{2\sigma ^{2}}}$

$\frac{1}{(2\pi \sigma ^{2})^{\frac{1}{2}}}$の部分と打ち消し合い、全区間での積分した結果が1となることがわかると思います

ガウス分布がなぜあの形をしているのか

じゃぁ全区間で積分して1になるように、適当な形を選んだのかというと当然違います

ガウス分布には3つの制約条件があります

平均が$μ$になること
分散が$\sigma^{2}$になること
全区間足すと1になる

最大エントロピー原理

「ある条件下でエントロピーを最大化するということは、条件以外の情報を全く含まない自然な分布である」
と考え、これに基づき分布を決定する考え方を最大エントロピー原理といいます

いきなりエントロピーといわれると難しいですが、言い換えると「不確かさ」です
エントロピーが最大というのは、不確かさが最大なので、予測が最も困難であることを指すわけですね

逆に予測が最も困難でない場合は、条件以外のなにかしらの情報が付与されているとも言えます

なんとなく察しがつくとは思いますが、ガウス分布とは先程の制約条件下でエントロピーが最大になる分布となっているわけです
様々な場面でガウス分布を仮定して議論を進めていく背景には、制約条件以外の情報を排除したいという意図があるのではないでしょうか

情報量について

話が前後してしまいますが、エントロピーの求め方について解説していきます

エントロピーの前段として情報量の話を軽くしておきます

情報量の定義

発生する確率が低いことが分かった時の方が情報量は多い
情報量は足し算で増えていく

情報量を表す関数として$h(x)$を定義しておきます
$x$が起こる確率は$p(x)$とします

情報量は足し算で増えていくとしたので、$h(x)+h(x)=2h(x)$です
これがどういう状況かといいますと、$x$が起こることを2回知っていることを表します

確率では同時に起こる場合掛け算で表されるので、$2h(x)=h(x^{2})$であるといえます

このような関係から$h(x)=-\ln p(x)$表すことができることが示せます(詳しくはPRML1.6章をお読みください)

この情報量の平均をとったものをエントロピーと呼びます(エントロピーは$H(x)$で表します)
$$H(x) = -\int p(x)\ln p(x)$$
(本来これは微分エントロピーなどと呼ばれたりしますが、本記事においては単にエントロピーとさせていただきます)

エントロピーや情報量に対して、だいぶ駆け足な解説となってしまいました
本来はしっかり時間をかけて理解していくところだと思いますので、お時間があるときにしっかりした記事を参考に、この部分の理解を深めていってもらえたらなと思います

ガウス分布の導出

最大エントロピー原理に基づき、先の制約条件のもとこのエントロピーを最大化していきたいと思います

制約条件を式にしていきます

$\frac{1}{n}\sum x_{i} = \mu$
$\frac{1}{n}\sum (x_{i}-\mu)^2 = \sigma^2$
$\int p(x) = 1$

これは単純に平均と分散の定義です

この制約条件下でエントロピーを最大化する$p(x)$を求めたい場合、ラグランジュの未定乗数法をもちいます

$F[p] = -\int p(x)\ln p(x)dx + \lambda _{1}(\int p(x)dx-1) + \lambda _{2}(\int xp(x)dx-\mu) + \lambda _{3}(\int (x-\mu)^2p(x)dx-\sigma^2)$
とし、これを$p(x)$で変分して0とする

$\frac{\delta F}{\delta p(x)} = -\ln p(x) -1+\lambda_1+\lambda_2x+\lambda_3(x-\mu^2)=0$
$p(x)=$の形に直して

$p(x) = e^{ -1+\lambda_1+\lambda_2x+\lambda_3(x-\mu^2)}$

$-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu^2)$の部分を平方完成して

$ =\lambda_3{x-(\mu-\frac{\lambda_2}{2\lambda_3})}^2-(\frac{\lambda_2^2}{4\lambda_3}-\lambda_2\mu-\lambda_1+1)$

${\mu}' = \mu-\frac{\lambda2}{2\lambda3}, {\sigma }'^2=\frac{1}{-2\lambda_3}, I =\frac{\lambda_2^2}{4\lambda_3}-\lambda_2\mu-\lambda_1+1$とおくと

$=-\frac{(x-{\mu}')^2}{2{\sigma}'^2}-I$

よって
$p(x)=e^{-\frac{(x-{\mu}')^2}{2{\sigma}'^2}-I}=e^{-I}*e^{-\frac{(x-{\mu}')^2}{2{\sigma}'^2}}$ -①

3つ目の条件より
$\int p(x) dx = e^{-I}\int e^{-\frac{(x-{\mu}')^2}{2{\sigma}'^2}}dx=1$

ガウス積分で求めたようにこの積分は
$e^{-I}*(2\pi\sigma)^2=1$となり
$e^{-I}=\frac{1}{(2\pi\sigma)^2}$

①に代入すると
$p(x)=\frac{1}{(2\pi\sigma)^2}e^{-\frac{(x-{\mu}')^2}{2{\sigma}'^2}}$

よってエントロピーを最大化する$p(x)$はガウス分布の形となることが示せたと思います

感想

私は数学が得意ではないので、証明などで間違いがあれば教えてください

個人的にはLaTeX記法に慣れていなかったので、この記事を書くことがいい練習になりました

かなり詰め込みまくった記事になってしまい読みにくかったとは思いますが許してください
だいぶ一日目と違うジャンルの話になってしまいましたが、それが弊サークルの良い所だと思っているのでまた次の人がどんなジャンルをやるのか楽しみです

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up