本日は少し趣向を変えて、機械学習や統計に関する情報収集源についてまとめてみたいと思います。
機械学習
機械学習界隈の情報収集方法
http://d.hatena.ne.jp/kisa12012/20131215/1387082769
いきなりですが上記の記事に機械学習に関する有力な情報源がまとまっています。まずはここを参考にするのが良いかと思います。ただ情報が多すぎですので、筆者は Wikicfp と arXiv.org あたりの論文、それにはてなブックマークをチェックしています。
また論文については機械学習の論文を探すにも良い情報がまとまっています。こちらも参考になります。
機械学習は日進月歩の世界ですので、最新の査読済み論文を追って概略だけでも理解する能力を身に付けると良いかと思います。
書籍としては次の 2 冊が聖書とも言える必読書で、本気で機械学習をやりたければ必ず参考になるかと思います。
パターン認識と機械学習 (上・下)
http://www.amazon.co.jp/dp/4621061224/
http://www.amazon.co.jp/dp/4621061240/
もし内容が難しすぎて理解できないという場合、数学の基礎力が足りていない可能性があります。その場合は大学・高校の数学の教科書を取り出して復習すると良いでしょう。
Python
NumPy
NumPy 利用ノート
http://www.geocities.jp/showa_yojyo/note/python-numpy.html
まずは基礎中の基礎である NumPy について。 Python のバージョンが少し古いですが日本語の情報がまとまっている点では貴重です。
SciPy
Python Scientific Lecture Notes
http://scipy-lectures.github.io/
SciPy の入門用レクチャーとして優秀なサイトで、ここを見ればだいぶ参考になるかと思います。 GitHub にソースがあるので Fork して改造して動かしてみても良いでしょう。
scikit-learn
A tutorial on statistical-learning for scientific data processing
http://scikit-learn.org/stable/tutorial/index.html
scikit-learn のチュートリアルです。ここを読めば scikit-learn について入門できるかと思います。
matplotlib
matplotlib のガイド
http://matplotlib.org/1.3.1/contents.html
matploblib のガイドは約 1,000 ページ以上に渡る膨大なもので、上記サイトから PDF をダウンロードできます。これを参照すれば少なくとも不足は無いでしょう。
pandas
pandas についても公式のドキュメントが充実しておりこれを見るのが良いです。開発のスピードが速いので書籍より公式情報を参照するのが良いでしょう。
pandas: powerful Python data analysis toolkit
http://pandas.pydata.org/pandas-docs/stable/
統計
統計学に関しては書籍に情報がまとまっており学術体系として完成度が高いです。したがいまして良書を選んで読むのが良いかと思います。
無料で情報を収集するなら、オンラインで無料で読める統計書 22 冊が以下にまとまっています。
http://id.fnshr.info/2013/08/11/online-stat-books/
Amazon で購入できる書籍としては以下のものが筆者のオススメです。
社会統計学入門 (放送大学教材)
http://www.amazon.co.jp/dp/4595313705
日本統計学会公式認定 統計検定1級対応 統計学
http://www.amazon.co.jp/dp/448902150X
「統計学入門」基礎統計学 - 東京大学教養学部統計学教室
http://www.amazon.co.jp/dp/4130420658
道具としてのベイズ統計
http://www.amazon.co.jp/dp/4534046472
ゼロから学ぶ統計解析
http://www.amazon.co.jp/dp/4061546562
R によるやさしい統計学
http://www.amazon.co.jp/dp/4274067106