search
LoginSignup
144

More than 3 years have passed since last update.

posted at

updated at

PRMLの機械学習アルゴリズムを実装して理解する

PRMLこと、「パターン認識と機械学習」 のアルゴリズムをPython (numpyと必要に応じてscipy)でほぼスクラッチで実装する方法を解説した記事です。

対応するjupyter notebookは筆者のgithubのリポジトリ からご覧いただけます。

各記事へのリンク

※随時リンク先が増えていきます。

方針

  • この連載では、機械学習アルゴリズムの実装を通して、それらのアルゴリズムの動作を理解することを目標とします。 従って、用いるデータはあくまでtoy dataです。また、アルゴリズムを実データに適用するときのテクニックのような話はほとんど扱わない予定です。
  • なるべく分かりやすい書き方を目指してはいますが、基本的には自分の勉強(炎上ラーニング)用の記事です。「これ誤植では?」「そもそも理解が間違ってる」「これは誤解を招く」「コードのこの部分はこう書いたほうが綺麗」などなど、マサカリ大歓迎です。
  • 数式部分はPRMLを読んで理解しているものと仮定します。ですので、この記事ではあまり数式の詳細は解説しません。
  • その代わり、数式をコードに落とし込む部分について事細かに解説します。(e.g.) 数式のどの変数がコード内のどの変数に対応していて、どういう形のarrayにしているか、など。
  • なお、PRMLとは異なり、添え字は1からではなく0から始まる記法を採用します。これは、Pythonのindexingと整合させるためです。
  • python3を用います(3.5以上を仮定しています)。
  • numpyと、必要に応じてscipyを利用します。scipyを利用するのは主に特殊函数や線型代数の部分の予定です。scikit-learnはデータセットを持ってくるときに使用することもあります。

参考文献

  • C.M.ビショップ「パターン認識と機械学習 ベイズ理論による統計的予測」丸善出版(2012)

PRMLこと、言わずと知れた機械学習の名著です1。この連載は、PRMLの各章から1つずつアルゴリズムを実装していきます。
英語版のPDFは著者の公式webページから無料でダウンロードできます。日本語版のamazonのページは上巻はこちら、下巻はこちら

タイトルの通り、数学とPythonの基礎からみっちり鍛えて、機械学習のアルゴリズムと実装を学ぶことができる本です2基礎から実装まできちんと機械学習を学びたい方は、私の記事なんぞではなく、このような本で学ばれることをお勧めします。

既に同じ趣旨の記事として@ctgk さんのこちらの人気記事があります。
ただ、扱うアルゴリズムに違いがあったり、アプローチも異なったりしますので、今回筆者が新しく書く価値はゼロじゃないかなと思います。
筆者の記事に興味を持った方は、ぜひ@ctgkさんの記事もご覧いただければと思います!

この記事を書き始めた理由

以下、与太話。

実はこの記事の中身は、既にだいぶ前に自分の勉強用にjupyter notebookとして書き、公開してありました。ただ、見返してみるといくつか不満もありました:

  • 端的に言って、コードが汚い。
  • 完成形のコードだけが書かれているので、どういう思考でコードにしていったのか見て取れない。
  • 英語で書いてあるので、日本の方の役に立ちにくい3
  • 綺麗に書き直したいなーと思っていたところに同僚の勧めもあり、コードを手直しするついでに、Qiitaでもう少し詳しい解説をゆるふわっと日本語で書いてみようと思った次第です。

  1. 万人に薦められる教科書ではないかもしれませんが、物理系出身者には自信を持ってお薦めできる本かと思います。著者は元は物理の出身のようで、そのせいか私を含めて物理出身者は口を揃えて「読みやすい」と言っていました(中途半端に自然言語で説明するよりも数式をきちんと書くところが良い。)。ただし、実装についての言及はあまりありません。実装しないと分かった気にならなかったのが、この記事(の元になるjupyter notebook)を書き始めた理由です。 

  2. 私は立ち読みしかしていないのですが、恐らく日本語で読める本の中では最も懇切丁寧に深いところまで学べる本なのではないかと思います。 

  3. でもその代わり, 海外の方からスターをいただいたときは嬉しかった...! 

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
144