この記事を2024-04-07に書きましたが、
- その後良書が出た
- 改めて見直すとRoadMapで書かれているのは私が紹介した本よりちょっとレベル高め
などあり、2025年版としてUpdateします。
Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。
言語、基盤、アプリ、かなり網羅されています。
その中のAI and Data Scientist Roadmapについての推薦図書まとめです。
- 雑感
- これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては
- ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。
- いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。
- 計量経済学重視の観点はいいですね、触れてない人が多いですがビジネスでのデータサイエンスであればこの観点が重要なので。
- これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては
- 以下にそのカテゴリに対応する日本語書籍を19冊挙げてみました。
- 数式をきちんと追うよりもコード写経でたくさんのアルゴリズムに触れてなれ、その後に数式に戻った方が理解が早いと思います。ですので理論については優しめ、コード写経多めで以下ご紹介します。
- もっと学びたいという方は私の別記事2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊をご参照ください
Mathematics 数学
- Linear Algebla, Calculus, Mathematical Analysis 線形代数、微積分、解析学
- Differential Calculus 微分積分
- 重複していてよくわからないところもあるが線形代数と微積分のことを言っていると思われます。
- まず、高校レベルの数学が出来てない方は本屋で良さそうな本を見つけてください。
- 次に大学一年レベルの線形代数と微積分も優しい本もあるので、ここではデータサイエンスに向けた本としてここら辺をわかっていると次の本に進むのに便利という最低限のハードルとして。
-
妥協しないデータ分析のための 微積分+線形代数入門 定義と公式、その背景にある理由、考え方から使い方まで完全網羅! New
- 2024-09-21に刊行されました。
- 好著連発のソシムのカラフルシリーズです。Amazonページにある目次を見てみてください。ちゃんと勉強している人ならわかるはず。「そこを知りたかった」が書いてある。
- 線形代数基礎→微分積分基礎→微分積分と線形代数のデータ分析の関係について
- 微分積分と線形代数について数学的には重要だけれど機械学習では優先度が低い点は大胆に省いて、その代わり本の入り口ではありますが話題の生成モデルである拡散モデルにまで触れています
- 問題演習は別の本でやった方がいいですが、どこまでが必要かってわからないじゃないですか数学って「この範囲ですよ」って示してくれる貴重な1冊
- 演習とかも考えれば統計学のための数学入門30講も悪くないですが最初に読むなら本書かなと思います
-
これなら分かる最適化数学: 基礎原理から計算手法まで 継続
- 隠れた名著。
- タイトルからはわかりにくいのですが、機械学習は誤差を最小化する最適化をする場合がほとんどであり、最適化の数学をぶん回しているとも言えます。そして、最適化のために微積分や線形代数がどう使われるかを丁寧に解説してます。
- 本書がわかると、数式だらけの本も少なくとも「どういうことをやろうとしているか」くらいはわかるようになります。
Statistics 統計学
-
データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅 継続
- 数式ありのテキストはたくさんありお好きなのを。それよりも「考え方」みたいなところをしっかり身につける方が重要だと思う。
-
公式と例題で学ぶ統計学入門 New
- とは言ったものの数式ありの本は数多ありますので1つ。2024-08-17に刊行された本書。
- 数学検定で言うと2級レベルで、最低限このくらいは必要なというところかなと思います。
-
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 継続
- A/Bテストがあり、次の計量経済学にもつながる良い本と思います。
数学、統計学については
もご参考なさってください。
Econometrics 計量経済学
- 計量経済学もかなり分野として広いですが、ここでは実証分析としての重回帰や時系列分析の基本を学べと言っていると思います。
- 計量経済学一般
-
実証分析のための計量経済学 継続
- 単にライブラリを当てはめるだけの「分析」と実際の「分析」は違うよってことを知るのは経験を積まないといけないですが、スキルがないと経験も積ませてもらえないので。武器持ってまっせと言うための入門ですかね。
-
実証分析のための計量経済学 継続
- 時系列
-
Pythonによる時系列分析: 予測モデル構築と企業事例 継続
- 時系列の基本についてPythonコード例とともに学べます。
-
Pythonによる時系列分析: 予測モデル構築と企業事例 継続
- 行動経済学
-
分析者のための行動経済学入門 プロスペクト理論からナッジまで、人間行動を深く網羅的に解明する New
- 2024-11-25刊行。RoadMapには明記はないのですが、Econometricsの解説にある(自動翻訳)
であるとすると昨今の潮流としては、因果推論に基づき観測する、その結果をどう人間の行動変容に繋げるかという行動経済学、などの分野が重要になってきています。RoadMapに「計量経済学」を入れるならば、この観点は必須かなと思い、因果推論かつ行動経済学の基本が学べる本書を追加しました。
計量経済学とは、統計的手法を経済データに応用することである。経済関係に実証的な 内容を与えることを目的とする経済学の一分野である。より正確には、「適切な推論方法に よって関連づけられた理論と観測の同時展開に基づく、実際の経済現象の定量的分析」 である。計量経済学は、経済学者が 「山のようなデータをふるいにかけて、単純な関係を 抽出する」ことを可能にするものであるとも言える。
- 2024-11-25刊行。RoadMapには明記はないのですが、Econometricsの解説にある(自動翻訳)
-
分析者のための行動経済学入門 プロスペクト理論からナッジまで、人間行動を深く網羅的に解明する New
- 計量経済学一般
Coding コーディング
-
Learn Python Programming Language
- 私はデータ分析はRからは入り、5年くらい前からPythonに転向。フリーのe-Learningとかネット記事とかで学んだ。念の為本格的な本をと 『世界標準MIT教科書 Python言語によるプログラミングイントロダクション 第3版』 継続 の前の版を読んだりしたけれど今は色々あるのでお好きなものを
-
京都大学のPython演習テキスト 継続
- ネットで話題の公開PDFテキスト。これだけやれば十二分じゃないですかね。
- Data Structure and Algorithms (Python)
-
Pythonで学ぶアルゴリズムとデータ構造 継続
- 薄い本ですが最低限のところは入っているかと。
-
Pythonで学ぶアルゴリズムとデータ構造 継続
-
Learn SQL
- SQLは何十年も前にオライリー本かなんかで学んだと思うけれど覚えていない。これも今は良書がたくさんあるのでお好きなので。
-
改訂新版 前処理大全〜SQL/pandas/Polars実践テクニック Updated
- 2024-05-22に改定版が出ました。Rが消えて(無念!)、大容量データに対応したPythonライブラリPolarsが追加されました。データの前処理についてSQLとPythonとPolarsでそれぞれでどう書くかの本です。
- 本書までできれば上々かなと思います。
Exploratory Data Analysis (EDA) 探索的データ分析
- EDA with Python and Pandas
- データ分析のためのPandas、というようなタイトルの本も出てきてますがまだ未読。前掲のPythonコーディングの本と後掲のEDAの考え方本を知っていればひとまず十分かと。
- EDA for Machine Learning
-
分析者のためのデータ解釈学入門 データの本質をとらえる技術 継続
- サブタイトルにある「モデリングの前後がおろそかになっていませんか」通り、EDAだけではなくモデルの評価指標等も含まれる本です。
-
分析者のためのデータ解釈学入門 データの本質をとらえる技術 継続
- EDA with Seaborn
- データ可視化でのEDAのことと思われであれば和書では下記
-
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術 継続
- EDA for Machine Learningに位置付けてもいいかもですが、単なる可視化ではなく洞察につなげるに重きをおいています。
-
データ分析者のためのPythonデータビジュアライゼーション入門 コードと連動してわかる可視化手法 継続
- Pythonで具体でどう書くか。ネット上にサンプルコードはたくさんありますが、1冊まとめて一回読んでおいた方が良いかなと。細かなコーディングはググってもいいですが、そもそもどう言う表現ができるかを知っておいた上でググった方が効率よいので。
Machine Learning 機械学習
- 理論
-
はじめてのパターン認識 継続
- これも類書がたくさんありますが、まずはこれレベルをきちんと押さえておくと次に進みやすいです。
-
パターン認識と機械学習 上, パターン認識と機械学習 下 New
- すみません漏らしていたけれどRoadMapを見たらPRMLの電子版がそのまま載っているので翻訳書を挙げました。
-
はじめてのパターン認識 継続
- コード写経
-
Python機械学習プログラミング[PyTorch&scikit-learn編] New
- [第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践を挙げておりましたがこの本はTensorFlowで、現在を考えるとPyTorchのほうがいいですね。
-
Python機械学習プログラミング[PyTorch&scikit-learn編] New
Deep Learning
- Fully connected NN, CNN, RNN, LSTM, Transformers, Transfer Learning 深層学習と転移学習
- Transformersとありますが、Transformerがアルゴリズムであり、TransformersはTransformerを含む自然言語処理のライブラリなので、ここはおそらくTransformerの誤記
- 理論
- ディープラーニングを支える技術 ——「正解」を導くメカニズム[技術基礎] 継続
- ディープラーニングを支える技術〈2〉 ——ニューラルネットワーク最大の謎 継続
- 類書が大量にありますが、わかりやすさとレベル感のバランスだと本書が一番かと。
- 深層学習 改訂第2版 (機械学習プロフェッショナルシリーズ) New
- RoadMapには深層学習 Goodfellowのebookが挙がっていてこちらも読んだほうがいいと思いますが最近の動向も入っている青本の本書の方がいいかな。
- コード写経
- ひとまず前掲『Python機械学習プログラミング[PyTorch&scikit-learn編]』
- 理論
- Transformer
- 理論
-
IT Text 自然言語処理の基礎 New
- Transformerだけではなく、自然言語処理のスタンダードなテキストだと思います。
- 難しかったら自然言語処理の教科書Newから
-
IT Text 自然言語処理の基礎 New
- コード写経
-
大規模言語モデル入門 継続
- Transformerを含み、LLM全体についてはまずこれで手を動かしてみるのが良いかと。
-
大規模言語モデル入門Ⅱ〜生成型LLMの実装と評価 New
- 上記書の下巻の位置付け。類書も多数出始めてますがTransformer周りの機能を網羅的に試せるのは本書かと思います。
-
大規模言語モデル入門 継続
- 理論
- Transformersとありますが、Transformerがアルゴリズムであり、TransformersはTransformerを含む自然言語処理のライブラリなので、ここはおそらくTransformerの誤記
MLOps
- Deployment models, CI/CD
-
AIエンジニアのための機械学習システムデザインパターン 継続
- 正直MLOpsは私は詳しくなく、この本くらいしか読んでないですが評価は高いようです。
-
実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ 継続
- データ基盤もここに含まれると思うので。そのノウハウ集。
-
AIエンジニアのための機械学習システムデザインパターン 継続
- Data Analyst Roadmap の記事も書きました。