More than 5 years have passed since last update.

［ブログ］最尤推定と最小二乗法が同じ意味になるとき

統計学

Posted at 2018-12-14

はじめに

　どうもお久しぶりです．AIとか自動運転，EVなどをよく見る世の中になりました．他にネタはないのかと思う時があります（笑）．時代のせいか僕が通う大学も最近情報系の授業が入ってきているのを感じます．大学も手探りで情報系の教育を模索しているような気がします．結局個人の意欲によるところがあると思うのですが．
　さて，そんな時流の中である講演を聞くと，ある日エレーーー先生がこんなことを言ってきました．『最小二乗法と最尤推定法は大体同値なんじゃよ．』っと．当時僕は最小二乗法は知っていましたが，統計なんてよくわからず，『最尤推定法ってなんじゃらほい？』って感じでした．なので，「へーそーなんだ．」以上の感覚を持てませんでした．
　しかし，妙にエレーーー先生の言葉頭に残り，ある日ググってこんな記事を見つけました．これを見た僕は先生の意味が分かり，喉元の小骨が取れた気がしてすっきり納得しました．
　本記事は先の記事を自分なりにまとめた備忘録です．よければ暇つぶし程度に読んでみてください．
　本記事は最小二乗法と最尤推定法の定義をまず述べ，その後証明，そして二項分布でも成り立つよということ(具体例の記事もリンク張っときました．)を解説しました．

最小二乗法

　最小二乗法について説明します．(まぁ，大体の人が知っていそうですが．)説明変数を$x_i$，目的変数を$y_i$という２種類のデータが与えられています．その時に２つのデータの間に次のような$y = f(x)$という関係があるとします．その様な関数$f(x)$を求める方法の1つです．
　最小二乗法では下記のような量$G$を定義します．

 G := \sum_{i=1}^n (y_i - f(x_i))^2

　その後$G$を最小にするような関数$f(x)$を求めます．これが最小二乗法です．
　簡単な具体例を示します．普通は$f(x)=ax+b$を推定するという問題を考えます．その場合は$G$を最小にするような$a$,$b$を推定することになります．($a$，$b$で$G$を偏微分して$\frac{\partial G}{\partial a}=0$，$\frac{\partial G}{\partial b}=0$を連立して解けば行けます．)

最尤推定法

　次に最尤推定法について説明します．最尤推定法には目的変数が従う確率分布をあらかじめ決めておく必要があります．この分布は$y_i$，$x_i$，関数$f(x)$が与えられて初めて決まるものとします．そのような確率分布の関数を$p(y,f(x))$としておきます．この確率をもとに最適な関数$f(x)$を求める方法の1つです．
　最尤推定法では次のような量$L$を定めます．

 L := \sum_{i=1}^n \log{p(y_i,f(x_i))}

　その後$L$を最大にするような関数$f(x)$を求めます．これが最尤推定法です．
　繰り返しますが本手法は最小二乗法と違い，目的変数が従う確率分布$p$をあらかじめ決めないといけないところがあります．

同じの意味になるとき

証明

　一見まるで違う最小二乗法と最尤推定法です．しかし，最尤推定法がある条件を満たすとき，最尤推定法と最小二乗法が同じ意味になるときがあります．それは確率分布$p$が正規分布になる時です．今回は実際にどうなるか計算してみます．$p$が正規分布となる時，確率は具体的に下記の様に書くことが出来ます．

 p(y_i,f(x_i))= \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(y_i-f(x_i))}{2\sigma^2}}

　ここで尤度$L$を計算してみます．

 L = \sum_{i=1}^n \log{p(y_i,f(x_i))}\\
=-\frac{\sum_{i=1}^n(y_i-f(x_i))}{2\sigma^2}-\frac{n}{2}\log{2 \pi \sigma^2}\\
=-\frac{G}{2\sigma^2}-\frac{n}{2}\log{2 \pi \sigma^2}

　ここで$\frac{n}{2}\log{2 \pi \sigma^2}$，$\frac{1}{2\sigma^2}$は定数です．よって変数は$G$のみです．$G$が最小になる時，$L$は最大になります．つまり，最小二乗法と最尤推定法が一致することが言えました．

ちょっとひねった例

　ここでちょっとひねった例を示します．それをここに示します．リンクを貼った記事では最尤度推定を行うにあたって確率分布$p$に二項分布を用いています．本記事と関係ないように思えます．しかし，ド・モアブル=ラプラスの極限定理(中心極限定理の特別な時)よりサンプル数$n$が十分大きいとき．(どれくらい大きければいいかというと$np(1-p)>5$くらいあればいいらしいです．wikipediaに書いてありました．（笑）)二項分布の確率は下記の様に正規分布に近似できます．

p \sim \frac{1}{\sqrt{2 \pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

証明はここにあります．
　よって二項分布で最尤推定した結果もサンプル数$n$が十分大きければ，$p$が正規分布の時と同じようになり，最小二乗法と最尤推定法の結果が一致します．

おわりに

　読んだ人が「へーそーなんだ」って思ったらいいなって思います．統計などの記事はネットに書き尽くされているの何番煎じになっているか怖いですが，一応記事を書いてみました．僕が書いたので間違っているかもしれませんが，そこはご愛敬で．ちゃんと学びたい人はちゃんと本をかって読んで勉強しましょう．

以上

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up