「データサイエンティストに必要な数理について」
※この投稿はシリーズものの一部です。
part2 <-[part0](http://qiita.com/yuusei/items/49a63f4402afc66243e6)->part4
どうも。Yuuseiと申します。
家の近所でアナリストとしてB2B周りの分析をしてるんですが、
本格的にデータサイエンティストと名乗るために自分の中で整理をつけようと思い、
重い腰を上げた次第です。
が、仕事とプライベートで色々と重なり、筆が進んでいない状態でした。
その間にも色々な記事や本を読み、改めてここの構成を考えた時に、
手法ツールのまとめも重要だが、その裏にある「モデルができた背景」を伝えていくほうが、
実は楽しいんじゃないか必要なんじゃないかと思いました。
と、いうのも、モデルや手法についての説明書はいっぱいあります。
「こう言うシーンではこれを使うんだよ」
「このモデルの使い方はこうだよ」
と言った実務ベースの本や、
「統計学概論」
「確率解析入門」
と言った専門書はあるんですが、
ぶっちゃけどれも読んでて苦痛なんだと思うんですよ。
僕みたいに確率や統計の理論側から実務に入ってきた人間は、
どちらも(難しいなぁと思いながらも)意味を見出しながら楽しめるんですが、
そう言うバックグラウンドのない方にしてみればただただ苦痛なのかなと。
何が足りないのかなぁ・・・
そう思った時に、多分数式から絵が描けない、つまりイメージが湧かない人が大半なのだろうな、
と言う仮説ができました。
なので、part1でも書いてた
「それに沿った形で後続のPartは手法やツール、概念の紹介にする流れにします。」を、
次のpar4から「数式からイメージを描く」を裏テーマとして実践していこうと思います。
今考えている、全体の章立てはこうです。
1章 記述統計の基本と基本的な確率分布
(平均/分散/標準偏差/共変動と相関/一様分布/ガウス分布 etc…)
2章 推計統計の基本と対応する確率分布
(検定/推定/t分布/χ二乗分布/F分布 etc…)
3章 様々な確率分布
(二項分布/ポアソン分布/負の二項分布/対数正規分布/指数分布/アーラン分布 etc…)
4章 確率過程を理解する為の基礎概念
(確率空間/独立性/ルベーグ積分/大数の弱・強法則/フーリエ変換/中心極限定理 etc…)
5章 確率過程入門
(ウィーナー過程/レヴィ過程/ガウス過程/マルコフ過程/MCMC etc…)
6章 確率的最適化入門
(確率過程の入った待ち行列理論 / 確率的最適制御-動的計画法)
自分の専門が Operation Research である事と、
論文のテーマが Stochastic Optimal Control / Dynamic Programming (確率的最適制御/動的計画法)の隅っこにあったため、
できればここまでは書き切りたいと思います。
上記の章立てを見てわかると思いますが、
データサイエンティストがよく使う手法としてよく上がっている、
ランダムフォレスト/xgBoosting/ニューラルネットワークについては、特に語る予定がありません。
これらの手法は、基本的にあらゆるところで説明しているので、そちらに任せるとして、
このシリーズでは、より基本的なところ、かつ汎用性のある確率・統計に的を絞って、
なるべくブレずに書き切る事を目指します。
何より自分が移り気なので、書きたいものを絞らないと発散してしまうと言うのがあります
この辺の手法については、気が向いたら都度別エントリーを作って回収します。
仕事をしながらになるので、
繁忙期などでどうしても難しい時もあると思いますが、
だれないようにベンチマークを置いておこうと思います。
1〜4章までを2017年9月までに、5章を年内、6章を来年6月までに、
と言った感じのスパンで書いていく予定です。
それでは、この記事と同時に第1章を上げましたので、
そこからスタートとして、合わせてご笑覧ください。