はじめに
##本記事のターゲット
「 "データサイエンティスト"とか"統計"とか最近良く聞くし、興味あるけど、正直その分野それほど詳しいわけじゃねーし、どっから始めればいいんだよチキショーがっ」
って人に向けて描いた記事です。
つまりは X年前の自分が「あったらいいのにな」って思ったであろう記事です。
なので「俺はバリバリのデータサイエンティストだぜ」って人が喜ぶようなマニアックな内容について触れているような書籍などは載せていません。
「PRMLがないとか...基本のキだろ、あんたモグリかい?」
などと思われた方はこの記事から得られることは無いかもしれません。
あくまで初学者をターゲットにした記事になります。
※ ある程度データサイエンス周りを齧ってる人でも、部分的には参考になるかもしれません。(願望)
【こちらもどうぞ】
・そろそろデータサイエンティストの定義とスキルセットについて本気で考えてみる
http://qiita.com/hik0107/items/f9bf14a7575d5c885a16
##本記事の見方
『概論』『プログラミング』『統計モデル・機械学習』の3つに分けて書いています。
興味が有るところから見ていただければいいと思います。
また、初学者向けを謳っているので、各情報源について『とっつきやすさレート』を完全なる独断で描いてみました。
★☆☆☆☆ : 初心者にはとっつきづらい
★★★★★ : 初心者でもとっつきやすい
なお、このレートは完全に独断に基づいて適当に振っています。厳密な根拠はありません。
また、このレートは情報としての質の良し悪しとは一切関係がありません。
あくまで、初学者だった頃の自分が見た時に、「うげっ ちょっととっつきにくい...」って思ったかどうかが判断基準です。参考程度に御覧ください。
##本記事に関する注意点
記事中の情報は適宜追加、変更される可能性があります。
特に、追加に関しては、まだまだ書ききれていないソースがたくさんあるので順次行っていく予定です。
1.概論編
##書籍
オライリー: データサイエンス講義
http://goo.gl/rZqhE5
★★★☆☆
概論としてかなり良くまとまっています。
データサイエンティストを取り巻く現状から、統計モデルの概要、実務まで諸々を薄く広くカバーした本
データ分析界隈の最低限の知識がある人なら、最初に読むのもいいと思える本。
その数学が戦略を決める
http://goo.gl/Rkd5q
★★★★★
学習書ではなく読み物ですが...
ワインから犯罪、マーケティング、映画に至る様々な分野で、データと統計モデルの活用例が書かれた本。
著者は大学教授なので、ケーススタディの集め方が半端じゃないです。
Sexy Little Numbers
http://goo.gl/DMOKrs
★★★★★
世間で言われているデータサイエンティストのイメージとはちょっと違うのかもしれません。
が、ビジネスに意味のある分析には、時として大量のデータも難しい統計モデルも必要ないのかもしれないことを教えてくれる本です。
オライリー: ビューティフル・データ
http://goo.gl/LNvaUW
★★☆☆☆
データがどんな分野でどんな風に応用されているかの事例集
Facebookのデータサイエンティストの話なんかも出てくる、好きな人は好きそうな内容
##動画
schoo: 現場で使えるデータ分析 講座
https://schoo.jp/teacher/184
★★★★★
Recruit Communicationsのデータサイエンティストである吉永さんがデータ分析の実務について講義してくれます。
gacco: 社会人のためのデータサイエンス講座
http://gacco.org/stat-japan/
★★★★☆
薄く広くの面が強いので、最初の入りとして眺めるにはいいと思います。
『最強の学問=統計』を宣言された、あの有名な西内先生も出ています。
##ブログ
銀座で働くデータサイエンティストのブログ
http://tjo.hatenablog.com/
★★★☆☆
データサイエンティストの業界では有名人である、『T.J.Ozakiさん』のブログです。
かなりの情報量がありますが、ブログなので体系的に書かれているわけではありません。
ので、ある程度の知識がある人が流し読みしながら、気になる記事をガッツリ読む、という学習の仕方がいいかもしれません。
ただ、モデルやプログラミングだけでなく、業界の流れなどにも触れているので、そういった記事は初学者の方でも取っ付き易いと思います。
2.プログラミング編 (Python,R)
##書籍
Pythonによるデータ分析入門-Numpy, Pandasを使ったデータ処理
http://goo.gl/YflT0M
★★★☆☆
Pythonで分析をする際の必須ツールであるPandasとNumpyについてガッツリ学べる
※データを扱うための方法論についての本なので、Scikitleanなど機械学習アルゴリズムについて取り上げているわけではないので注意
##書籍
集合知プログラミング
https://www.oreilly.co.jp/books/9784873113647/
★★☆☆☆
機械学習の代表的なアルゴリズムをPythonで実装しながら学べる
Pythonがある程度使えることと、アルゴリズムの基礎的な知識がある人向けなので
プログラミング/アルゴリズムともに学習の最初の1冊としては向いていないかも
##動画
Udacity: Intro to Data Science
http://edmaps.co/udacity/course/ud359.html
★★★☆☆
データサイエンスの概論を学びつつ、Pythonでのデータ操作について コーディングのテストも交えながら学習していく
Udacity: Data Analysis with R
http://edmaps.co/udacity/course/ud651.html
★★★☆☆
Rの授業
##ウェブサイト
同志社 データサイエンス研究室
http://www1.doshisha.ac.jp/~mjin/R/index.html
★★★☆☆
Rを使って統計の基礎から、統計/機械学習のモデルまで、幅広く学べます。
時間があってRを使いたいと思っている人なら、これを網羅的に学習すれば一通り身につくと思う
技評 はじめよう機械学習
http://gihyo.jp/dev/serial/01/machine-learning
★★☆☆☆
Pythonで簡単な機械学習アルゴリズムを実装できます。
理論的なバックグラウンドなども説明しながら進められるのがいいところ
##その他(私の投稿のステマです)
Python Pandasでのデータ操作の初歩まとめ
http://qiita.com/hik0107/items/d991cc44c2d1778bb82e
Pythonでのデータ分析初心者がまず見るべき情報源のまとめ
http://qiita.com/hik0107/items/0bec82cc09d0e05d5357
pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る
http://qiita.com/hik0107/items/3dc541158fceb3156ee0
##補足
プログラム面でいうと、SQL, Linux, Hadoopとかも使えたほうが良いんですが
この辺りは自分が乱雑に学んだために体系的なよい情報源を知りません。
オススメある方は教えていただきたいです m(_ _)m
#3.統計モデル、機械学習編
##書籍
データ解析のための統計モデリング入門
http://goo.gl/mrX8vD
補足として、http://hosho.ees.hokudai.ac.jp/~kubo/ce/NiigataiLecture2015.htmlを
見ながら進めるとなおわかりやすいかも
(リンク先は著者の講義用ハンドアウトが置いてあるページ)
★★☆☆☆
統計モデルの基礎、一般化線形モデルがいちから体系的に学べる
最終的にはGLMM(混合モデル)やMCMCにまで話が及ぶが、一旦はGLMまで学習すれば良いのではと思う。
この手の本にしては、語り口がラフで、厳密性にこだわっていないため、非常にとっつきやすい
「みどりぼん」の愛称で親しまれており、読書会なども開催されている。
解説の音声動画などもアップされていたりするので、一人でシコシコやるのが性に合わない人はそういった情報も合わせて学習するのが良いかもしれない。
https://www.youtube.com/watch?v=nD3V4ovqr1A
Rによる優しい統計学
http://goo.gl/RJDzI
★★★★☆
Rでコードを書きながら統計の基礎知識を身につける本
コーディングと統計が同時に学べるのがよい
##動画
Coursera: Machine Learning
https://www.coursera.org/learn/machine-learning
★★★☆☆
オンラインコースのCourseraの中でも、絶大な人気を誇る看板授業
スタンフォード教授のAndrew Ngの機械学習の授業。
説明が懇切丁寧で、初心者にもオススメ
授業は英語ですが、日本語字幕があるので安心です。
階層ベイズとMCMCの解説
https://www.youtube.com/watch?t=5&v=wO8jd0z5YRQ
★☆☆☆☆
上記で紹介した『データ解析のための統計モデリング入門』著者の久保先生が自ら階層ベイズモデルについて説明した動画。
書籍本編と併せて学習すると効果大かも
##ウェブサイト
Teradata マーケティングアナリティクス
http://goo.gl/t3JoMx
★★★★☆
マーケティング分野で利用されるデータマイニングのモデルについて素晴らしく細かく書かれているサイト
この情報量が一切無料なんて、テラデータさんマジで素敵
技評 機械学習 はじめよう
http://gihyo.jp/dev/serial/01/machine-learning
★★☆☆☆
機械学習の概論を一通り学びつつ、Pythonで実装
手を動かしながら学びたい人(でPythonが多少はかける人)には最適
Kaggle Titanic Tutorial
http://kagglechallenge.hatenablog.com/entry/2015/02/13/193155
★★★★☆
データコンペサイトKaggleで有名な『タイタニック乗客の生存予測』を題材に、予測モデルをいちから作っていくチュートリアル
Excel, Python, Rのそれぞれで用意されているのが嬉しい。