即席!データサイエンス部署にいきなり配属されたどーにかしないといけないに書き漏らしたことなど。
自分と同じように悩んでいる人がいる、自分より遙か先を走っている人がいる
自分の会社や部署にデータ分析をしている人がいて議論出来る、なんて方は珍しいでしょう、残念ながら、日本では。Rの画面やテキストとにらめっこをしていると受験勉強をしてたときのような茫漠とした不安が襲ってくる。「自分はこのままでいいのか」
-
dots.
- IT勉強会・セミナーなどのイベント情報サイト。登録しておくと勉強会情報がメール配信されます。下記、connpass, Doorkeeperなど他の情報サイトからの転載もある。
- dots.自体も勉強用貸しスペースを渋谷に持っていて、個人利用も、勉強会など団体利用も出来る。
-
connpass
- 勉強会・セミナー開催管理・情報サイト。
-
Doorkeeper
- 勉強会・セミナー開催管理・情報サイト
-
atnd
- 勉強会・セミナー開催管理・情報サイト。
-
Tokyo.R
- Rの勉強会。大人気でいつもすぐに埋まってしまいます。atndの告知を待ってたら間に合わない、どうしよう。東京以外も各地にJapan.R 2015。
-
データマイニング+WEB@東京
- 人気でいつもすぐに埋まってしまう。上記情報サイトとは別なのでGoogle Groupsで確認。
ってAnalyだすって言ってもよう、最低限の交通法規を守ってみんなに認められたい方向け
データサイエンティストというかデータ分析職に就くための最低限のスキル要件とはというのが前回ご紹介した「六本木で働くデータデータサイエンティストのブログ」(銀座→東京→六本木)で紹介されています。
- 機械学習のラインとして
- はじめてのパターン認識 は前回の「即席!」で紹介しました。
- 統計モデルのラインとして
-
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 統計モデルの解説かつRによる例題つき。「緑本」の愛称で定番。
-
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
機械学習も統計モデルも与えられたデータを元に予測を行うのですが何が違うのかと言えば、
- 機械学習は、与えられたデータにないデータを如何に予測するか、なのでブラックボックスとなっても予測精度重視
- 統計モデルは、どのようなプロセスでそのデータが与えられたかを重視、なので精度を犠牲にしてもブラックボックスは認めたくない場合
詳しくは、Logics of Blueブログなぜ状態空間モデルを使うのか
「僕はバイクを盗まなかったし、窓ガラスも割ってない、教科書通り授業を受けてきたけど、僕の学生時代には機械学習の授業はなかった、かといって今から大学に行けないし、僕には傘はないし、ピアノを弾く腕もない」方向けの機械学習の授業
MOOCsというオンライン学習のムーヴメントがあり、貧困国の教育問題を解決する切り札と期待されているのであるが、そもそも平和とは何かをこ
-
Coursera
- 英語だと怖気づかないで、Machine Learningの授業は有名、日本語字幕あり。Deep Learning研究の第一人者(Deep Learning「猫認識」の方)Andrew Ng博士の授業。第一線の研究者なのに教育に情熱をそそぎCourseraを立ち上げ、しかも授業が上手い。それに引き換え某国の放送大学はむにゃむにゃ。
-
Udacity
- Couseraは大学の授業スタイルで講義とレポートって感じですがUdacityは講義の合間合間にミニテストがあり、根気が弱い人はまずこちらがいいかも。一部日本語字幕あり。GoogleによるDeep Learningの講義もあるぜ。
-
edx
- Couseraと並び称される。機械学習のコース多数あり。
-
Gacco
- はい、お待たせしました、日本語の時間です。数式の出てこないExcelベースのデータ分析入門のコースがいくつか。
-
Udemy
- 上記は大学等の組織側が講義を提供しているけど、Udemyは一般の方が授業を投稿するスタイル。当然ながら人気講義となるのは大学の先生や腕に自信のある技術者等です。本家は英語だけど日本語の講義もたくさん増えました。
偉そうに書いたけど僕はUdacityの統計コースとGaccoくらいしか最後まで行った講義ないぜ。
忘れてたMOOCsで思い出したけどムック本が好きな方は
僕もムック本好きです。大先生が話すのではなく、現場の最先端の方が技術を紹介してくれて、実装の一部も。そしていざ自分で試すと、あれが足りない、これが分からない、なぜ僕はバカなのだろうむにゃむにゃ
- データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)
- データサイエンティスト養成読本 機械学習入門編 (Software Design plus)
もちろん、これらですぐどうにかなる、ってわけではないですけど、主流の技術、ツール
- Rは、機械学習パッケージのcaret、データ取り扱いのdplyr、並列化、RMarkdown, etc
- Pythonは、Numpy、Scipy、matplotlib、機械学習パッケージのscikit-learn, etc
- RとPythonにはまだまだ人気が劣るけど、高速な処理で注目のJulia(←ググるときは「Julia」でなく「Julia 統計」のこと!!!)
- 深層学習の基礎
- etc
についてこのページ数、値段でまとめられているのは驚異だと思う。多くはネットで無料で得られる情報ですけど、この本を読まずにこれらの内容を「WEBで情報収集」と称して無駄に残業している・させているのは国家的損失ですよ、お父さん!
更に深めたければ衝動!データサイエンス部署に配属になったのに待ってるばかりじゃ恋はKAGGLEない[即席!データサイエンス部署にいきなり配属されたどーにかしないといけない3] へ