More than 5 years have passed since last update.

Machine Learning コース Lecture1

Last updated at 2019-01-11Posted at 2018-12-17

はじめに

最近オンラインで機械学習の授業を受けているのですが，学ぶことが多く，受けているだけだと忘れてしまいそうなので備忘録的にもここにまとめていく．
（全部英語なので日本語にまとめるだけでも勉強になりそう）
まだまだ勉強中の身なので，読んでて気になるところがあったらぜひコメントしてください．

オンライン授業について詳しく知りたい方はこちらから!

この授業では機械学習について以下のように分けていましたので僕のまとめもその観点からになることを先に断っておきます

教師あり学習は大きく二つの方法に分けることができる

教師なし学習の目的は基本的にデータの構造を明らかにすること（最近はもっと他にも色々あるけど）
これはpredictionやrecommendations, efficient data explorationを助けてくれる

次に機械学習の方法について大きく４ブロックに分かれている

例としてガウス分布について上のモデルの立て方を適応してみると

x_1,...x_n.~~Each~~x_i \in \mathbb{R}^d

An i.i.d Gaussian model を仮定する

i.i.d assumption とは

p(x_1,...x_n|\theta) = \prod_{i=1}^n p(x_i|\theta)

が成り立つこと．つまり，独立で同一の分布からデータが得られる

最尤推定法（Maximum likelihood）

最尤推定法は

\hat{\theta}_{ML} := argmax ~~p(x_1,...x_n | \theta)

を満たす $\theta$ を推定することである　

これはつまり得られたdata群に対して，このdata群を一番よく出現させるパラメタを推定している.
具体的な計算については割愛

その結果，ガウス分布のパラメタはそれぞれ

\hat{\mu}_{ML} = \frac{1}{n}\sum_{i=1}^n x_i　 \\

\hat{\Sigma}_{ML} = \frac{1}{n} \Sigma_{i=1}^n (x_i - \hat{\mu}_{ML})(x_i - \hat{\mu}_{ML})^T

となる
つまり，最尤推定法を用いると，モデルの平均は得られたデータの平均，分散共分散も，その平均を用いて計算したものとなる．

特にしない

p(x|\mu,\Sigma) := \frac{1}{(2\pi)^{\frac{d}{2}}\sqrt{det(\Sigma)}}\exp(\frac{-1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))