東京大学・株式会社Nospareの菅澤です.
今回は統計学・データサイエンスの効果的な勉強方法**(私見)**について紹介します.
前提として大学レベルの微積分・線形代数をある程度取得している状況を想定します.
勉強の進め方のポイント
個人的に統計学・データサイエンスは「総合格闘技」な分野だと思っています.というのは,適切なデータ分析を実行するためには例えば
- 分析データに対するドメイン知識
- 対象のデータに対して使える手法の知識
- 分析手法の数理的な背景の知識 (分析手法が妥当なのはどのような場面か)
- 分析手法を実装する能力
が必要となってきます.
特に個々のデータ分析のドメイン知識以外の部分は「理論」と「実装」が大きなウエイトを占めるかと思います.
統計学・データサイエンスを勉強するにあたっては,大きく分けて「理論」と「実装」の2つのパートがあることを意識し,両者をバランス良く勉強することが効率的に勉強を進める上で重要なことではないかと思います.
両者の特徴としては
- 理論の勉強: 短期的な成果が見えにくい (長期的には効果が大きい)
- 実装の勉強: 実際に動かせてできた気分になれる (木を見て森を見ずになりがち)
という印象を持っています.
理論的な内容の勉強は正直なところ短期的な成果は見えにくいと思います.一方で,背景の理論的な知識を学ぶことによって統計学の基本的な考え方や大枠を捉えることができるようになるため,新しい分析手法に出会ったときに「これはあの方法と同じ感じだ」とか「あの方法と比べてここが優れているんだ」といった感じで,手法間の繋がりを理解しながら学習することができるようになると思います.
おすすめの教科書
現在,統計学・データサイエンスに関して様々な教科書が出版されていますが,大学レベルの数学をある程度習得されている方には以下の2冊を個人的にオススメします.
- 『Rで学ぶ統計的データ解析』 (R + 基礎理論)
- 『現代数理統計学の基礎』 (中級レベルの理論)
こちらの2冊の本は自分が大学で担当している講義の参考書としても使っています.1冊目の方はタイトルの通り,Rでの実行例とともに基礎的な理論について一緒に学べる本です.2冊目の本は実装例などはなく純粋な理論の内容になっています.
この2冊に加えて,RやPythonの実装に特化した本や機械学習・ベイズ統計などのより進んだ理論が書いてある本を読むといろんな知識が身について良いかもしれません.
個人的なオススメとしては以下の2冊です.
- 『RやStanでベイズ統計モデリング』 (ベイズ統計方面)
- 『パターン認識と機械学習』 (機械学習方面)
最近はネット上に様々な内容(理論から実装まで)の解説記事が出ておりまして,それを参考にするだけでもある程度の知識を身につけることは可能だと思います.ただ,本は様々な内容が体系的にまとまっているため,腰を据えて勉強するには適している教材だと思います.
(おまけ) 自分が学生時代に勉強した本
最後におまけ程度の内容ですが,自分が学生時代に勉強した本を何冊か紹介しておきます.
学部時代
1冊目は「数理統計学」の基礎をしっかり学ぶことができる名著です.(最近改訂版が出ました.)
2冊目は多変量解析に特化した内容になってまして,統計学で頻出の行列・ベクトル演算の知識も身につきました.
自分は数理系の学部だったため,理論のみを勉強してRなどの実装に特化した勉強はほとんどしませんでした.(反省点)
大学院時代
- 『入門ベイズ統計学 & 実践ベイズ統計学』
- 『Bayesian Computation with R』 ⇨ 和訳版『Rで学ぶベイズ統計学入門 』
- 『Bayesian Econometric Methods』
- 『Bayesian Data Analysis』
- 『Asymptotic Statistics』
- 『Time Series Analysis: Theory and Methods』
大学院時代はベイズ統計を中心に勉強しました.その際は自力でMCMCを組むなど,実装などにも力を入れて勉強を行いました.(当時はStanなどの汎用的なツールがあまり浸透していなかった...)
他にも混合効果モデルや欠測データ解析の本などを掻い摘んで読みましたが,やはり学部時代に基礎的な数理統計の本を勉強しておいたおかげで効率的に勉強が進められた気がします.
おわりに
今回は統計学・データサイエンスの勉強方法について簡単に紹介しました.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.