わーっと書いてみた間違ってたらごめんな Ver.1.0
なにも分からないがとりあえずデータサイエンティストとしての外面だけ取り繕いたい場合
『Rによるデータサイエンス-データ解析の基礎から最新手法まで』 金 明哲著 森北出版
2007年とやや古いですが、機械学習の基本的な手法が網羅されています。本書のRコードをひたすら写経のように実行しましょう。本書とほぼ同内容が著者の金氏のページで公開されていますのでそちらでもよいと思います。
https://www1.doshisha.ac.jp/~mjin/R/
データ分析で用いられる、多変量解析や機械学習などの代表的な手法がほぼ網羅されています。
相談できる人もいない自分が今どのレベルなのかこっそり確認したい場合
データサイエンティストのスキルチェック
データサイエンティスト協会が決めたスキル表からランダムに抜き出して簡易チェックができるとのこと。
流行の技術を実際に扱って長所短所を知りたい場合
-
東京で働くデータサイエンティストのブログ
データ分析のブロクはたくさんありますが1つに絞るならこの方のブログと思います。流行の技術を取り上げて、実際にRのコードなどで試したり、ニュース等で騒がれてるけど実際はこうだよね、というように、現場のデータサイエンティストの方のクールな見方が勉強になります。
実践したいけど実際の問題がない場合
Rの教科書などに出ているサンプルデータは解答しやすい「きれいな」データです。でも実際のデータは抜け、重複、間違いなどがある「きたない」データがほとんどです。でもそういう実際のデータは具体的に仕事とならないと手に入ることは少ないです。そういうデータと具体的な課題を競技のようにあつかっているコンペティションがあります。上位になるには世界レヴェルのイチローや本田のようなもので簡単には到達できません。でも実際の「きたない」データを用いて具体的な課題を解くという練習は本当の仕事となったときに役にたちます。また、上位の人がソースコードを提供してくれている場合があり、勉強になります。まず、参加してみましょう。
-
Deep Analytics
- 株式会社オプトホールディングス社が主催。日本語だけどコンペティションが少ない今後増えることを期待。
-
KAGGLE
- KAGGLE社が主催する。常時10件以上開催。英語だけど投稿までの仕組みは簡単なので英語が弱くても対応可能。上位は本当の世界のトップクラス。
そうは言っても俺まじ一歩抜け出したいんだよねっつーなら数学的土台を固めようぜ
まー確率統計はだれでも必要と思うと思うのだけれど、あと2つ必要。
何かが変化する時、それを扱うには必ず微分と積分が用いられる。データサイエンスでも、パラメタを変えればアウトプットが異なり、真の値との誤差も変わってくる。パラメタを変えながら誤差を最小に、なんてときは微分が必要。問題を細かく分割して計算して、最後にぐぅわっと足すなんて時には積分が出てくる。それを学ぶのが微分積分。
たくさんの変数が出てきてその関係を見たい場合に、ばーと分けたり平均的な値に直線を引くってことがある。ぐんにゃり曲がった?データの場合は座標自体を曲げて直線を引くなんてこともある。直線は楽だからね。そう、直線な感じのことを「線型(=線形)」って言ってそれを学ぶのが線型代数学。
-
入門
- 微分積分
- 書店に行っても本が多すぎてわかんねー。大学時代に使った本を引っ張りだしてもいいけどねー。大学時代苦労しなかった人は「初級」へ。苦労した人は定義証明が厳密な本よりも、数学をツールとして使う、的な本のほうがいいね。
- 「わかりやすい」「テストで点が取れる」などなどたくさん出ていてわかりませんが、目次に「多変量」「重積分」とかいう語がある本でわかりやすそうなのを選んだらよいのではないでしょうか。
- 線型代数
- 微分積分と同じ。目次に「行列式」「逆行列」「固有値」「一次独立」みないた語があればよいのではないでしょうか。
-
プログラミングのための線形代数
- 本書は通常の教科書を読んでも理解しずらい概念の説明が優れています。本書を読んだだけでは必ずしもマスターは出来ませんが、教科書と平行して読んだら得るところが多いのではないかと思います。「行列は写像だ」
- 統計
- 微分積分と同じ。類書がたくさん出ているのでどれがいいかはよくわからないですけど、ひとまずの目標としては下記「統計学入門」ですが、とっつきにくいので簡単な本からでもよいと思います。また、先日データサイエンティストの方のご講演では、「データサイエンスの勉強の前に統計学が必須というのはやや疑問。統計学の概念は知っていて無駄ではないが、検定や推定などは現場ではほとんど使わないのであまり深入りする必要なない。」という内容の事を仰っていました。確かに正規分布や検定を知らない、というのはまずいですが、統計学の勉強に足を引っ張られ途中で挫折してしまうならばある程度はスルーした方がよいかなと思います。
-
統計学入門 (基礎統計学)
- 統計学の推薦図書としてたいてい紹介されています。この本をマスターしていれば統計学の基本をマスターしていると言っていいのだと思います。
-
プログラミングのための確率統計
- 本書も、通常の教科書と並列に読み、教科書で分からない概念の理解に役立てるという位置づけ。「確率は面積だ」
- 微分積分
-
初級
- 「入門」をマスターした人、あるいは大学時代にある程度やって錆びるけど磨けばなんとかレヴェルの人は以下の本が良いのではないでしょうか。
-
統計学のための数学入門30講 (科学のことばとしての数学)
- 微分積分と線型代数学が1冊になっている。題名通り統計学に特化していて、それぞれの単元が統計学ではこう使われるというコラムがある。2冊分が1冊になっているので解説は簡単なもののみ。一度学習していて「あーこんなのあったな」と思い出せるレヴェルの人が錆びつきをとくのにちょうどよいと思う。
-
これなら分かる最適化数学―基礎原理から計算手法まで
- 読み進めています、例題を解きながら進めることが重要。機械学習で必須な最適化を目指して微分積分と線型代数がまとめられています。
ヘイヘイヘイ、機械学習勉強しちゃうぜ的な方に
初級
- イラストで、分かりやすい、的な本がありますがどれも満足したことがありません。前述の『Rによるデータサイエンス-データ解析の基礎から最新手法まで』で手を動かすのが一番かなと思います。
中級
-
はじめてのパターン認識
- 「パターン認識」とありますがだいたい「機械学習」と同義でよいと思います。上記までの数学が分かっていれば分かるはず(私は上記までの数学がまだ途中なので……)ですが、数式が追えなくても、こういう概念が機械学習として一般的なんだということが分かるだけでも有益と思います。
上級
……、と以上の本をマスターしたら下記の本が理解できるようになるらしいです。で以下の本がデータサイエンスのバイブル的位置づけらしい、って「パターン認識と機械学習 上」の途中でうろうろしている私にはこれ以上は……
- パターン認識と機械学習 上
-
パターン認識と機械学習 下 (ベイズ理論による統計的予測)
- 上記2冊のアンチョコ的情報をまとめたサイト PRML の読む章・飛ばす章(私家版) があります。
- 上記サイトで紹介されている内容を製本したパターン認識と機械学習の学習―ベイズ理論に挫折しないための数学という本もあります。
- この本でも理解が難しいとろろがあり、より入門的な内容を私がQiitaにまとめ中です。http://qiita.com/aokikenichi/items/e6e4811af2aeebf98439 内の「『パターン認識と機械学習の学習』の学習」
- 上記サイトで紹介されている内容を製本したパターン認識と機械学習の学習―ベイズ理論に挫折しないための数学という本もあります。
- 上記2冊のアンチョコ的情報をまとめたサイト PRML の読む章・飛ばす章(私家版) があります。
- 統計的学習の基礎 ―データマイニング・推論・予測―
論文はわかんねーけど音速の向こう側を眺めてみたいという方に
-
岩波データサイエンスシリーズ
- 初級向けの本を読んだ次から研究の一歩(二歩以上?)手前までの解説書です。刊行しているテーマが流行の深層学習を追わず、ただ、現場では必要とされている(はず)のものに特化していて渋いです。入門初級者から一歩抜け出るのにはいいシリーズだと思います。
- 岩波データサイエンス Vol.1 「ベイズ推論とMCMCのフリーソフト」
- 岩波データサイエンス Vol.2 「自然言語処理」
- 岩波データサイエンス Vol.3 「因果推論」
- 初級向けの本を読んだ次から研究の一歩(二歩以上?)手前までの解説書です。刊行しているテーマが流行の深層学習を追わず、ただ、現場では必要とされている(はず)のものに特化していて渋いです。入門初級者から一歩抜け出るのにはいいシリーズだと思います。
-
講談社機械学習プロフェッショナルシリーズ
- まさに最先端の一歩手前までを垣間見せてくれる。数式だらけで正直理解は辛いけど、このシリーズがなければ論文を読むしかない内容がずらりと壮観。
-
深層学習 (機械学習プロフェッショナルシリーズ)
- 私では理解が正直つらいですがQiitaに下記記事をまとめてくらいついています http://qiita.com/aokikenichi/items/e6e4811af2aeebf98439 の「講談社機械学習プロフェッショナルシリーズ『深層学習』の学習」
-
深層学習 (機械学習プロフェッショナルシリーズ)
- まさに最先端の一歩手前までを垣間見せてくれる。数式だらけで正直理解は辛いけど、このシリーズがなければ論文を読むしかない内容がずらりと壮観。
そう、気が高まって走りたくなったら 妄走!あふれるデータでAnalyだせ、行き先も分からないまま[即席!データサイエンス部署にいきなり配属されたどーにかしないといけない2] へGo。