Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。
言語、基盤、アプリ、かなり網羅されています。
その中のAI and Data Scientist Roadmapについての推薦図書まとめです。
- 雑感
- これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては
- ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。
- いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。
- 計量経済学重視の観点はいいですね、触れてない人が多いですがビジネスでのデータサイエンスであればこの観点が重要なので。
- これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては
- 以下にそのカテゴリに対応する日本語書籍を19冊挙げてみました。
- 数式をきちんと追うよりもコード写経でたくさんのアルゴリズムに触れてなれ、その後に数式に戻った方が理解が早いと思います。ですので理論については優しめ、コード写経多めで以下ご紹介します。
- もっと学びたいという方は私の別記事2023年版データ分析の100冊をご参照ください
Mathematics 数学
- Linear Algebla, Calculus, Mathematical Analysis 線形代数、微積分、解析学
- Differential Calculus 微分積分
- 重複していてよくわからないところもあるが線形代数と微積分のことを言っていると思われます。
- まず、高校レベルの数学が出来てない方は本屋で良さそうな本を見つけてください。
- 次に大学一年レベルの線形代数と微積分も優しい本もあるので、ここではデータサイエンスに向けた本としてここら辺をわかっていると次の本に進むのに便利という最低限のハードルとして。
-
統計学のための数学入門30講
- 隠れた名著。
- 微積分と線形代数が入っています。それらを勉強しているとそれが統計学のどこに役立つのか見失うことがあるのですが、統計学のここで使われるよ、ということを明示した本です。微積分と線形代数の基礎自体の言及はさらっとしているのでそこは別の本で読んだ後、あるいは並行して読むと良いかと。
-
これなら分かる最適化数学: 基礎原理から計算手法まで
- これも隠れた名著。
- タイトルからはわかりにくいのですが、機械学習は誤差を最小化する最適化をする場合がほとんどであり、最適化の数学をぶん回しているとも言えます。そして、最適化のために微積分や線形代数がどう使われるかを丁寧に解説してます。
- 本書がわかると、数式だらけの本も少なくとも「どういうことをやろうとしているか」くらいはわかるようになります。
Statistics 統計学
-
データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅
- 数式ありのテキストはたくさんありお好きなのを。それよりも「考え方」みたいなところをしっかり身につける方が重要だと思う。
-
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎
- A/Bテストがあり、次の計量経済学にもつながる良い本と思います。
Econometrics 計量経済学
- 計量経済学もかなり分野として広いですが、ここでは実証分析としての重回帰や時系列分析の基本を学べと言っていると思います。
- 計量経済学一般
-
実証分析のための計量経済学
- 単にライブラリを当てはめるだけの「分析」と実際の「分析」は違うよってことを知るのは経験を積まないといけないですが、スキルがないと経験も積ませてもらえないので。武器持ってまっせと言うための入門ですかね。
-
実証分析のための計量経済学
- 時系列
-
Pythonによる時系列分析: 予測モデル構築と企業事例
- 時系列の基本についてPythonコード例とともに学べます。
-
Pythonによる時系列分析: 予測モデル構築と企業事例
- 計量経済学一般
Coding コーディング
-
Learn Python Programming Language
- 私はデータ分析はRからは入り、5年くらい前からPythonに転向。フリーのe-Learningとかネット記事とかで学んだ。念の為本格的な本をと 『世界標準MIT教科書 Python言語によるプログラミングイントロダクション 第3版』 の前の版を読んだりしたけれど今は色々あるのでお好きなものを
-
京都大学のPython演習テキスト
- ネットで話題の公開PDFテキスト。これだけやれば十二分じゃないですかね。
- Data Structure and Algorithms (Python)
-
Pythonで学ぶアルゴリズムとデータ構造
- 薄い本ですが最低限のところは入っているかと。
-
Pythonで学ぶアルゴリズムとデータ構造
-
Learn SQL
- SQLは何十年も前にオライリー本かなんかで学んだと思うけれど覚えていない。これも今は良書がたくさんあるのでお好きなので。
-
前処理大全 データ分析のためのSQL/R/Python実践テクニック
- データの前処理についてSQLとRとPythonでそれぞれでどう書くかの本です。
- 本書までできれば上々かなと思います。
Exploratory Data Analysis (EDA) 探索的データ分析
- EDA with Python and Pandas
- データ分析のためのPandas、というようなタイトルの本も出てきてますがまだ未読。前掲のPythonコーディングの本と後掲のEDAの考え方本を知っていればひとまず十分かと。
- EDA for Machine Learning
-
分析者のためのデータ解釈学入門 データの本質をとらえる技術
- サブタイトルにある「モデリングの前後がおろそかになっていませんか」通り、EDAだけではなくモデルの評価指標等も含まれる本です。
-
分析者のためのデータ解釈学入門 データの本質をとらえる技術
- EDA with Seaborn
- データ可視化でのEDAのことと思われであれば和書では下記
-
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
- EDA for Machine Learningに位置付けてもいいかもですが、単なる可視化ではなく洞察につなげるに重きをおいています。
-
データ分析者のためのPythonデータビジュアライゼーション入門 コードと連動してわかる可視化手法
- Pythonで具体でどう書くか。ネット上にサンプルコードはたくさんありますが、1冊まとめて一回読んでおいた方が良いかなと。細かなコーディングはググってもいいですが、そもそもどう言う表現ができるかを知っておいた上でググった方が効率よいので。
Machine Learning 機械学習
- 理論
-
はじめてのパターン認識
- これも類書がたくさんありますが、まずはこれレベルをきちんと押さえておくと次に進みやすいです。
-
はじめてのパターン認識
- コード写経
-
[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践
- これも類書がたくさんありますが、版を重ねており信頼できます。
-
[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践
Deep Learning
- Fully connected NN, CNN, RNN, LSTM, Transformers, Transfer Learning 深層学習と転移学習
- Transformersとありますが、Transformerがアルゴリズムであり、TransformersはTransformerを含む自然言語処理のライブラリなので、ここはおそらくTransformerの誤記
- 理論
- ディープラーニングを支える技術 ——「正解」を導くメカニズム[技術基礎]
-
ディープラーニングを支える技術〈2〉 ——ニューラルネットワーク最大の謎
- 類書が大量にありますが、わかりやすさとレベル感のバランスだと本書が一番かと。
- コード写経
- ひとまず前掲『[第3版]Python機械学習プログラミング』
- Transformer
- Transormerについては前掲書にないので別の本として
-
大規模言語モデル入門
- Transformerを含み、LLM全体についてはまずこれで手を動かしてみるのが良いかと。
MLOps
- Deployment models, CI/CD
-
AIエンジニアのための機械学習システムデザインパターン
- 正直MLOpsは私は詳しくなく、この本くらいしか読んでないですが評価は高いようです。
-
実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ
- データ基盤もここに含まれると思うので。そのノウハウ集。
-
AIエンジニアのための機械学習システムデザインパターン
- Data Analyst Roadmap の記事も書きました。