が好評でしたので、2025年版を作りましたよ。今年も好著連発なため、追いきれてない本もあります。おいおい追記編集します。
本記事のめあて
- IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております
- 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました
- ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせて理論のほかはほぼPython本のみにしています
- こういうリストを挙げる奴は大抵読んでいない、と過去にも言われたのですが、未読本は削除しました
- 最近好著連発なので読んでいる途中だけど挙げている本はあります(初版を読んだが改訂版が出てそちらは読んでいない本など)が推薦文書内で明示しております
全体俯瞰
今年の特徴(2024年版からの更新)
生成AIと自然言語処理は別記事にしました。
章立てと更新状況
2025年版機械学習・データ分析の100冊+5冊 |
2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊 |
更新状況 |
1. 必須の10冊 |
1. 必須の10冊 |
変更なし |
2. ビジネス力 |
|
|
2.1. ビジネス・テーマ定義の5冊 |
2.1. ビジネス・テーマ定義の4冊 |
1冊追加 |
3. データサイエンス力 |
|
|
3.1. 前処理・特徴量エンジニアリングの5冊 |
2.2. 前処理・特徴量エンジニアリングの5冊 |
変更なし |
3.2. 分析アルゴリズム |
|
|
3.2.1. 分析アルゴリズム 統計学の3冊 |
2.3.1. 分析アルゴリズム 統計学の3冊 |
1冊差し替え |
3.2.2. 分析アルゴリズム 機械学習アルゴリズム-1の5冊 |
2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の5冊 |
変更なし |
3.2.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の4冊 |
2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の4冊 |
変更なし |
3.2.4. 分析アルゴリズム 因果推論・因果探索の6冊 |
2.3.4. 分析アルゴリズム 因果推論・因果探索の6冊 |
変更なし |
3.2.5. 分析アルゴリズム 異常検知の2冊 |
2.3.5. 分析アルゴリズム 異常検知の2冊 |
変更なし |
3.2.6. 分析アルゴリズム ネットワーク分析の4冊 |
2.3.6. 分析アルゴリズム ネットワーク分析の2冊 |
2冊追加 |
3.2.7. 分析アルゴリズム スパースモデリングの2冊 |
2.3.7. 分析アルゴリズム スパースモデリングの2冊 |
変更なし |
3.2.8. 分析アルゴリズム 強化学習の3冊 |
2.3.8. 分析アルゴリズム 強化学習の2冊 |
1冊追加 |
3.2.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の5冊 |
2.3.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の4冊 |
1冊追加 |
(削除、別記事)2025年版 生成AI・大規模言語モデルを学ぶための30冊(必須5冊+定番15冊+差をつける10冊)
|
2.5.2. 生成AIの6冊 |
カテゴリ削除別記事に |
3.2.10. 分析アルゴリズム 評価指標・XAIの4冊 |
2.3.10. 分析アルゴリズム 評価指標・XAIの4冊 |
変更なし |
3.3. データ可視化の7冊 |
2.4. データ可視化の6冊 |
1冊追加 |
3.4. データ別 |
|
|
(削除、別記事)2025年版 生成AI・大規模言語モデルを学ぶための30冊(必須5冊+定番15冊+差をつける10冊)
|
2.5.1. 自然言語処理の7冊 |
カテゴリ削除別記事に |
3.4.1. 時系列分析の8冊 |
2.5.3. 時系列分析の7冊 |
1冊追加 |
3.4.2. 画像処理の1冊 |
2.5.4. 画像処理の1冊 |
変更なし |
3.4.3. 地理空間の1冊 |
2.6. 地理空間の2冊 |
2.5.5. 地理空間の1冊 |
3.5. 機械学習周辺の手法5冊 |
2.6. 機械学習周辺の手法4冊 |
1冊追加 |
3.6. 数学的基礎の4冊 |
2.7. 数学的基礎の4冊 |
変更なし |
3.7. プログラミングの3冊 |
2.8. プログラミングの3冊 |
変更なし |
4. データエンジニアリング力 |
|
|
4.1. データ管理の3冊 |
3. データ管理の3冊 |
変更なし |
4.2. 構築・運用の2冊 |
4.1. 構築・運用の2冊 |
変更なし |
5. 資格・KAGGLE |
|
|
5.1. 資格の3冊 |
4.2. 資格の2冊 |
1冊追加 |
5.2. KAGGLEの4冊 |
4.3. KAGGLEの3冊 |
1冊追加 |
6. Next!の5冊 |
5. Next!の5冊 |
2冊差し替え |
|
計104冊 |
20冊追加、3冊差し替え、13冊削除(自然言語処理7冊、生成AI6冊まとめて別記事に) |
凡例
長いオープニングは終わり、それではスタートです!
1. 必須の10冊
- 2024年版から変更せずにしました
- データサイエンティスト協会の「ビジネス」「データサイエンス」「データエンジニアリング」3つの要素が必要だよ、に合わせてみました
- 冒頭でも述べましたがこの10冊を読んでおくと、「なんもわからん」がかなり減ると思います
- そして、後続の各カテゴリの本へ接続しやすいのかな
カテゴリ |
書名 |
内容 |
最初の1冊 |
Python機械学習プログラミング[PyTorch&scikit-learn編] (impress top gear)
|
- 私が読んだのはこのシリーズの初版で正直この版は読んでませんが、変わらず評判が良いので挙げました。第3版まで出て2022年に新たにPyTorch & scikit-learn編となっていますが、実質第4版との位置付けつまり最新版とのことで良いと思います。
- 学び方はいろいろあると思いますが、数式を見てすぐ具体的イメージを掴める人は別として、そうでない方はまずコード写経で、こういうデータを投入してこのライブラリを使うとこういうアウトプットが出るのが〇〇アルゴリズムなんだ、という体で覚えてあとで理論を学ぶ方が早道と思う
- なので機械学習の広い分野のコードが載っている本でコード写経が一番だと思っています。
- 私はRから入ったので『Rによるデータサイエンス』という本ではじめましたが、それが現在の基礎になっています。Pythonで機械学習の本も多数出てますので本書にこだわる必要はなく、伝えたいことは「まずは習う(数学で行き詰まる)より慣れろ(コード写経で機械学習を体験しよう)」です。
|
ビジネス |
データ分析・AIを実務に活かす データドリブン思考
|
- 「AIは目的ではなく手段」ですのに「目的」と押し付けられ困っている方が多いため、反論の理論武装のためにも必須の10冊としました。
- 実際のビジネスへのデータ分析適用の第一人者と言っていい河本薫氏の本
- キーワードは「意思決定」
「現場で活用される」とは「現場の意思決定に活用される」ということ。「意思決定に活用される」とは「意思決定プロセスに分析結果が使われる」ということ。そして、意思決定プロセスに分析結果が使われるには、意思決定に有用なデータ分析を行うだけでなく、分析結果が意思決定に活用されるように「意思決定プロセスを設計する」必要があることに気づきました。
- ここ非常に重要と思う
「問題」とは、目標と現状との間いにあるギャップのこと。 「課題」とは、目標と現状とのギャップを埋めるためにやるべきこと、すなわち、「問題」を解消するためにやるべきこと。
- そしてビジネスで用いられる意思決定を6種類に分類しています
A 反復選択型 B 体制選択型 C 原因特定型 D 計画策定型 E 仮説思考型 F 経営判断型
- このように分析テーマについて非常に論理的にビジネスにデータ分析を適用するということはどういうことかが解説されています
|
ビジネス |
AI・データ分析プロジェクトのすべて ビジネス力×技術力=価値創出
|
- プロジェクト全体像の本ですが「ビジネス」に位置付けました
- データ分析プロジェクトの全体像を俯瞰的に解説した本。アルゴリズムがどうのではなくて、体制の組み方、外注の仕方などプロジェクト自体をどう設定してどう動かすのかについて書かれている。
- 入門として薦める方がいらっしゃいますがこれを読んでしっくり来るかは疑問。ある程度試行錯誤したあとの整理に良い本ではないかと思います。
|
データサイエンス |
分析者のための データ解釈学入門
|
- 「私が5年も回り道して学んでいたのは何だったのか!」
- ただ、最初にこれだけを読んでも理解が深まるかは分からない。前述の本等で自分で手を動かしていろいろ苦労して疑問が山のように出てから本書を(まー並行してでもいいか)読むと理解が深まると思う。
- 帯にもありますが「データの取得・分析・解釈・活用の各段階で知っておくべき技術」が分かる。まぁまぁのベテランでも誤解しやすいところも分かる。必読の本。
|
データサイエンス |
基礎から学ぶ統計学
|
- 東京大学出版会『統計学入門』を入門に指定されることが多いですが(昔は私もそうしてた)正直統計学の概念は難しく、もっと基礎的なところに絞ってしっかり身につけた方が良いかと。そうなるとこの本。
- 北大農学部の統計学入門の授業をテキストにまとめたようです。ですので必ずしも数学に馴染みがない学生向けに非常に丁寧にリアルな例とグラフを多用してわかりやすく説明しています。
- 後述の『データ分析に必須の知識・考え方 統計学入門』の方が範囲が広いのでやや手薄になりがちな基本概念を非常に丁寧に解説しています。「統計学は問題なし」という方でもなければまず本書が良さそうです。
|
データサイエンス |
はじめてのパターン認識 いわゆるはじパタ本
|
- これも類書がたくさん出てきたので他にも良い本があるかもですが(正直私がこれ以外知らんので)、いまだに売れているようで間違いはないと思う。
- 本書が理論入門の定番とされている、と思う。深層学習については言及がないが、機械学習で用いられる手法についてほぼ網羅されている。後掲PRMLを勧める方が多いが、研究者でもない限りいきなり読んでも挫折すると思うのでまずは本書からが良いと思う。
- ディープラーニングについては書いてませんが、まずは基本を押さえるということで。ディープラーニングについては本書のディープラーニング編もあるようですが、類書がたくさんありますね(後述)。
|
データサイエンス |
妥協しないデータ分析のための 微積分+線形代数入門
|
- 好著連発のソシムのカラフルシリーズ
- そして目次を見てよ、ちゃんと勉強している人ならわかるはず。「そこを知りたかった」が書いてある。
- 線形代数基礎→微分積分基礎→微分積分と線形代数のデータ分析の関係について
- 微分積分と線形代数について数学的には重要だけれど機械学習では優先度が低い点は大胆に省いて、その代わり本の入り口ではありますが話題の生成モデルである拡散モデルにまで触れている
- 問題演習は別の本でやった方がいいけれど、どこまでが必要かってわからないじゃないですか数学って「この範囲ですよ」って示してくれる貴重な1冊
- 『統計学のための数学入門30講』と差し替えになりました(長い間ありがとうかつ演習もするなら30講もまだまだ有用。
|
データサイエンス |
改訂新版 前処理大全
|
-
- 実業務ではデータの汚さと格闘することになります。
- データ分析の8割は前処理、などと言われる割にはまとまった解説書がないところに前の版が出てその後類書が増えましたけれど分かりやすさ、網羅性でやはり本書ですね。
- データの集計・結合・分割・生成などの整形の大全。1つの課題に対し、SQL、Python /Pandas系、Python/Polars系の3言語(ライブラリ)でどう対処するかのコード例、また言語による得手不得手の明示
- ググればたいてい見つかるものだけど、思い込みで局所解に陥っていたら効率の悪いコードにハマっているかも。一度正解を眺めておくだけでも前処理の深みにハマることを避けられると思う
|
データサイエンス |
データ視覚化のデザイン
|
- 著者はTableauのコンサルティングがご専門のようですが広くデータ分析での可視化にもそのまま適用できる本かと思います。データ分析に詳しくないユーザーや顧客に分析結果をどう提示するかに悩んでいる方には必読と思います。
- 作図をしているとついつい情報を詰め込みがちになるのは誰しも経験のあるところではないでしょうか。本書にある「詰め込むな削れ」は痛いところを突かれたと思う方も多いのではないでしょうか。
- 通常のデータ分析での可視化の本はライブラリの使い方がメインですがそもそもどういう伝え方をしたいのかで図が決まりますがそこを解説している本は少ないです。目次も、魅せ方を意識した内容です。
第1章 データ視覚化「キモのキモ」 第2章 これだけでグッとプロっぽくなるコツ 第3章 目的に応じたチャートの選択 第4章 事例で学ぶーダッシュボード作成過程思考キャプションー 第5章 本当に組織に根付かせるために
|
データエンジニアリング |
データマネジメント大全
|
- データエンジニアよりももうちょっと俯瞰にその組織のデータ管理のあり方のような本です。
- 分析者の環境により、何かGUIツールがあるのかSQLをガシガシ書くような環境か、データエンジニアが別にいるのか全部自分でやるのか、によりますがデータマネジメントの基本は知っておいたほうが良いですね。
- 下記目次のとおり、データ分析ではなくデータ活用のためにどうデータを管理するかの本です
- 機械学習の教科書だとわかりやすいデータが用意されていて、これで分類しましょう、とかとなりますが、現実の問題では、あると言われたデータがない、言われたのとは全然違うフォーマット、担当者が独自のExcelでバラバラに持っている、ID体系が異なり突き合わせができない、A部署にあると言われたがA部署からNoと言われもらえない等々が発生します
- そうならないために、それを解決するためにどうするかという本です
第1章 DXの正しい歩み方 第2章 DX推進の鍵を握るデータドリブン経営 第3章 データドリブン経営の成敗を左右するデータ利活用 第4章 データ利活用を支えるデータマネジメントの全体像 第5章 データマネジメント 戦略層 第6章 データマネジメント 実行層 第7章 データマネジメント 組織とヒト層
|
2. ビジネス力
- データサイエンティストにもビジネス、ドメイン知識は必要だよとよく言われるところですね
- ドメイン知識は個々によると思いますので、別に書いているnote記事業界ごとのAI・データ分析参考書籍をご参照ください
- ここでは、データ分析は目的じゃなく手段、ビジネスメリットを出すにはどうしたらいいかの本を紹介しています
2.1. ビジネス・テーマ定義の5冊
- そもそも何を目指しているかの「戦略」、PJの進め方や組織のあり方などです
- 生成AIにより狭い意味での分析工程が簡略化されるとなると、より、重要度がまず領域ですね
書名 |
内容 |
なぜ「戦略」で差がつくのか。
|
- 本書は機械学習やデータ分析の本ではありません。ただ、目的と手段を誤った「AIでなんかやれ」もまだまだ多数見受けられます。そもそも我が社、お客様は何をしたいのかを考える必要があるでしょう。
- そもそもデータ分析が必要なのか、そのデータ分析プロジェクトで何をしたいのか、リソース制約は何か、整理することが求められます。本書は関係者の共通理解を得るための第一歩になると思います。
- 戦略についてどうこう議論している本は数多あるものの、「戦略」とは何かをきちんと定義しいる本はまず見ないです。みんな「戦略」を定義しないまま好き勝手に言ってませんか。
- 「戦略」と口にする人ほど、戦略的に捨てた選択肢を、「とは言ってもこの観点もあの観点も必要だやってないのか」と蒸し返します。
- マーケター向けの本であり、本ブログ著作青木もマーケティング関連の勉強として読みましたがかなりの衝撃を受けました。マーケティングのみでなくおよそビジネスで「戦略」という言葉が出てくる分野には全て通用する話です。
- 皆簡単に「戦略」という言葉を使い共通理解がないまま破綻していませんか。
- Amazon紹介ページにある通り、ほとんどの会社が無自覚に「戦略」という言葉を使っていると思います。
しかし、経営戦略、マーケティング戦略、広告戦略、営業戦略… と企業の中では「戦略」という言葉が必要以上に多用されています。定義や意味が曖昧なため、ビジネスの現場で混乱や誤解を招く原因にもなり、実際的に戦略を運用する上では、ほとんど役に立ちません。 つまり「戦略」は、いまだにかなり曖昧な単語だということです。戦略の考え方のひとつを理解することは、今後の選択や意思決定に対して有効な指針となります。本書は、それぞれの読者が戦略を実践的な思考の道具として体得されることを目指すものです。
- 本ブログ著者の青木は「戦略においては、限られたリソースのもと目的達成のために何を実施し、何を捨てるか、の『何を捨てる』の共通理解を得ることが一番大事」と本書を理解しています。
|
仕事ではじめる機械学習 第2版
|
- AIのPJ全体について『AI・データ分析プロジェクトのすべて』で知ったあと、現場レベルにより絞った具体の内容として読むといいのではないか。
- 下記目次で示されるとおり、「仕事で使う」という軸で機械学習に必要な項目を概説している
1章 機械学習プロジェクトのはじめ方 2章 機械学習で何ができる? 3章 学習結果を評価するには 4章 システムに機械学習を組み込む 5章 学習のためのリソースを収集する 6章 継続的トレーニングをするための機械学習基盤 7章 効果検証:機械学習にもとづいた施策の成果を判断する 8章 機械学習のモデルを解釈する 第II部 9章 Kickstarterの分析、機械学習を使わないという選択肢 10章 Uplift Modelingによるマーケティング資源の効率化 11章 バンディットアルゴリズムによる強化学習入門 12章 オンライン広告における機械学習
|
最強のデータ分析組織
|
- 同じく河本薫氏の本
- 氏が元大阪ガス時代に苦労して作り上げたデータ分析チームについて
- これも、何もわかってない人がどこかの記事を聞きかじって茶々入れて時間ばかり食うので、理論武装しておこう。
|
データ分析失敗事例集: 失敗から学び、成功を手にする
|
- 本当に本書に書いてる通りに失敗するよ!「AIは分からないからお前に任せた」という人が、機械学習と深層学習の違いも分からないのに「ディープラーニングなら出来るはずだ!」とか割り込んで来て大変。
- 失敗しないために、失敗を知っておこう。
- データ分析PJを多数実践してきた方ならば目次だけで泣けるだろうし、これからの方は次に迫る失敗を乗り越えるために要注意な点が満載
Part Ⅰ 「えーあい」でなんとかして! CASE 1 UIを統一してUXが破綻する CASE 2 誰のための仕事? それが問題だ CASE 3 最先端アピールのための最先端プロジェクト CASE 4 本当に季節性はありますか CASE 5 レコメンドの必要ありますか CASE 6 分析を現場でどう使うか CASE 7 ほとんど故障しない製品の故障予知 CASE 8 AIという言葉の曖昧さ CASE 9 そんな目的変数で大丈夫か コラム データサイエンティストとしての生き方 Part Ⅱ 翻弄されるデータサイエンティスト CASE 10 成功した報告しか聞きたくない CASE 11 ターゲティングの必要性 CASE 12 決定木分析は決定木だけではない CASE 13 ドメイン知識の重要性 CASE 14 政治的な数字の応酬 CASE 15 プロダクトアウトでもドメイン知識は大事 CASE 16 スタイルの違いが引き起こした混乱 CASE 17 いくら分析したところで、売れないものは売れない コラム データサイエンティストの人事事情 Part Ⅲ その失敗を超えてゆけ CASE 18 カオス状態のBIレポート CASE 19 用意できたのは集計データのみ。予測精度はどこまで…… CASE 20 取ってびっくり、こんなに使えるデータは少ないのか CASE 21 頑張って予測していたのは…… CASE 22 木を見て森を見ずはキケン CASE 23 総人口の十倍を超えるID数との出会い CASE 24 最終報告が終わってから集計の仕様が決まる CASE 25 機械学習モジュールの寿命 コラム 絶対に失敗しないデータ分析
|
ビジネス課題を解決する技術〜数理モデルの力を引き出す3ステップフレームワーク
|
-
new
- このリストは機械学習メインですがデータ分析においては機械学習だけではないです。ここが分からない方が多いのですが、あくまでもビジネス課題を解決するためにやっているので
- 本書は数理最適化寄りでビジネス課題を具体的にどう解くかの本で、稀有です
- 3ステップのフレームワークでビジネス課題をどう解くかを明示しています
- 1. ビジネス課題を数理最適化問題として定式化
- 2. 数理モデルを構築し、未知のパラメータをデータから推定する
- 3. 数理最適化問題といて最適なアクションを導出する
- マーケティングの例ですが他の分野にも応用可能。
- 単にデータを機械学習に当てはめて予測値を出す。ただビジネスに何も役に立たないはよくある落とし穴。多くの場合は「最適化」(クリック数や利益などなら最大化、作業時間やコストならば最小化)のために機械学習を用いている。そこをフレームワークで明示している本です
|
3. データサイエンス力
3.1. 前処理・特徴量エンジニアリングの5冊
- 続いて、データが用意されたとして、機械学習アルゴリズムは結構グルメです。美味しい(分類・回帰等に適した)データでないと臍を曲げてまともな結果を返してくれません
- データを食べられるようにするにはどうしたら良いかの前処理と、より美味しくするためにはどうしたら良いかの特徴量エンジニアリングは重要です
- 『サンプルサイズの決め方』は良書ですが、難しく、データで殴る系の機械学習メインならば『入門 サンプルサイズ設計』で確実に基礎をおさえる方が良いと思い、外しました
書名 |
概要 |
入門 サンプルサイズ設計
|
- 本書のまえがきに、『サンプルサイズの決め方』の前段階の入門書の旨の説明があります。
- Rを用いて下記の説明があります。
- 1標本・2標本について平均値、割合、感度・特異度の検定
- 1標本の平均値・割合、2標本の平均値・割合の差の信頼区間
- シミュレーションによるサンプルサイズ設計
- 『サンプルサイズの決め方』も良い本ですがやはり難しい面があり、食わず嫌いをするよりも優しい本書せしっかり基礎固めをした方が良いかなと今回差し替えました。
|
欠測データ処理: Rによる単一代入法と多重代入法
|
- Rでの本ですがPythonでの本で適当なものがなく、要点は言語関係ないので取り上げました
- 欠測値の扱いはこれからどんどん高まるはず。
- 機械学習アルゴリズムによっては欠測値は特に処理しないでそのまま扱えることも多いけど、そうでない場合もある。そんなとき欠測値は厄介なのでみんな適当に処理しがち。
- 結構しっかりした統計の本でも「欠測値があるデータは除くこと」、「平均で埋める」などとしていることが多いが、むやみにデータを除くと分散などが歪む、適切な値で埋めないと分散が小さくなる、正しく埋める方法がある
- ことをRコードを示しながら丁寧に解説している。日本の統計の杜撰さが話題になってますが意図して、せずに関わらずビジネスのデータは欠損が多い。今後非常に重要になってくるはずです。今のうちに学ぼう。
|
機械学習のための特徴量エンジニアリング
|
- 機械学習モデルにそのままデータを投入すればよいわけではなく特徴量のうまい調理方法がありそれは特徴量エンジニアリングと呼ばれる
- 『前処理大全』『Kaggleで勝つデータ分析の技術』にも一部言及があるが本書は特徴量エンジニアリングに特化した本。
- 数値データの対数化等の加工、自然言語処理でのBoW、カテゴリデータの扱い、次元削減、k-means、深層学習での画像特徴量の抽出など基本だが重要な概念をコード例付きで詳しく解説している。
|
事例で学ぶ特徴量エンジニアリング
|
- 特徴量エンジニアリングの基礎のおさらいと、COVID-19データによる欠損値補完など、バイアス・公平性、自然言語処理の特徴量、画像処理、時系列データ、特徴量ストアまでを事例に基づいて紹介。
- ほら、特徴量エンジニアリングって理屈の基礎的なところは、ふむふむ、となりますがいざ実際のテーマ・データを対峙すると「あれ、どうすんだっけ?」ってなりますよね。そこをつなぐ・うめるような本かな。
- 翻訳者さんが本書の解説しているQiita記事改めて「特徴量エンジニアリング」とは何か?もわかりやすいからこれだけでも読んで。
|
Kaggleで勝つデータ分析の技術
|
- Kaggle本ですが、Kaggleのためであれば新しい本が出ており、本書は古くなっています。本書はKaggle向けだけではなくデータ分析に必要な特徴量エンジニアリングを含めて基本的なノウハウを網羅しているので、あえてこちらに入れました。
- 爆売れしているらしい。そら売れるだろう。キャッチーな「Kaggleで勝つ」に加えて内容がいいもの。
- Kaggle名人(Masterなど)がドヤ顔せず丁寧に手の内を明かしてくれている。
- データの前処理、アルゴリズム選定、パラメータ設定等あるいみすべて。
- Kaggleで勝つための小細工もあるが、Kaggleなんてする気ねぇという気質の分析者にも実務で得るところ多いはず。
- いやーこんなのが日本語で数千円で読めるなんてすごい時代になったなー昔なんて洋書か大部な数式だらけの本しかなかったんだぜ。
|
3.2. 分析アルゴリズム
3.2.1. 統計学の3冊
- 統計学が入門で機械学習がその応用としているような解説をまま見ますが違います
- TJOさんの記事「統計学と機械学習の違い」はどう論じたら良いのかに詳しいですが、
統計学はデータを「説明」することにより重きを置く
(中略)
機械学習はデータから「予測」することにより重きを置く
(中略)
とは言え、統計学と機械学習の違いは基本的にはそれほど大きくないし互いに重なる部分だらけ
- ということで機械学習の前提知識や基礎という意味ではなく、別の面から見る、という意味で統計学を身につけるものかと思います
書名 |
概要 |
データ分析に必須の知識・考え方 統計学入門
|
- 必読。私は苦労して学んだのに今の人は本書から入れてずるいって感じ
- 統計学とデータ分析はかなりかぶるのですが、少ないデータをどう扱うかの理論武装をしている面がある統計学とデータ量で力任せな機械学習と味方が異なる面があります。
- なので統計学の本で機械学習にはあまり要らないなーという項目もあるのですが、本書はサブタイトルに「データ分析に必須の知識・考え方」とあり、必要な点に絞りかつ統計学の入門書ではあまり扱わない項目(統計モデリング、数理モデリング、機械学習の基礎等)も含まれています
- 統計分析の目的は何ですか?
- p値の意味を理解していますか?
- 相関と因果を区別できていますか?
- その結果に再現性がありますか?
- 数式は最小限でイラストを多用して本質について解説してくれています。
|
公式と例題で学ぶ統計学入門
|
-
new
- 東京大学出版会『統計学入門』(赤本)から差し替えました
- 統計学入門は流行などがほぼないですが、赤本は例示などが古いものが目立つ。久保川先生のテキストは、レベル別にあるので学びやすいことなどから
|
プログラミングのための確率統計
|
- 確率・統計の「意味」が分かる。題名の「プログラミング」はほぼ関係ない。簡単にだが「カルマンフィルタ」なども紹介されている。
- 確率は面積だ!
|
3.2.2. 機械学習アルゴリズム-1の5冊
- みんな大好きデータ分析のアルゴリズムにやっと辿り着きました
- 生成AIである程度まで自動で分析出来てしまう時代だからこそ差をつけるためには丁寧に押さえておきたいですね
- ここで「数学がー」と騒がれるのですが、私は断然コード写経派です。研究者ならば数式をがっつり理解しないといけませんが、データ分析の技術者であればまずはコード写経でなれることが王道だし、早道と思います
- もちろん理論を知っている方が応用が効きますが、コード写経で、このデータをこのライブラリでこのハイパーパラメータで扱うとこういう結果が出るのだな、と知った上での方が数式の意味も入りやすいです
- もちろん理論書の式展開や章末問題をきちんと解くということまですれば差別化につながりますが
書名 |
概要 |
見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑
|
- 「このくらいわかってるよ」という方もいらっしゃると思いますが、LSA, NMF, LDA, LLEとかちゃんと説明できますか。
- 『データ分析のための数理モデル入門』、『分析者のためのデータ解釈学入門』なども出たので図解でわかりやすい唯一の本、という価値は薄れたかもしれないですけど、基本概念を図解でどう示したらいいか、という観点なら本書が一番かと。提案書やレポートでアルゴリズムなどを顧客に説明しなけらばならない時など参考になると思います。
|
本質を捉えたデータ分析のための 分析モデル入門
|
- 機械学習アルゴリズムを知るには数学が必要ですが難しく、数式の海に溺れがちです
- 回帰分析、ロジスティック回帰など基礎的なところから、教師あり学習、教師なし学習、強化学習、深層学習、画像処理、自然言語処理など非常に幅広く、その本質を数式とともにイラストで分かりやすく示してくれています。
|
Pytyhonで始める教師なし学習
|
- 教師あり学習が主で、教師なし学習は添え物的に扱われがちですが、実際のビジネスにおいてはデータがないことがかなりある。
- 次元削減、異常検出、クラスタリングから深層学習を用いた手法、時系列クラスタリングまで、教師なし学習の代表的な手法をコード付きで丁寧に解説している。
|
Optunaによるブラックボックス最適化
|
- 機械学習アルゴリズムのハイパーパラメーターの最適化を行うOptunaについて開発者らの解説本
- 機械学習アルゴリズム本の一節に簡単に取り上げられることが多いですが1冊丸ごとでの解説本。
|
パターン認識と機械学習 上 パターン認識と機械学習 下 いわゆるPRML
|
- ベイズの立場から機械学習アルゴリズムを解説した定番書
- これも類書がたくさん出てきているので別に良い本があるかも(ごめん、このレベルの本はこれしか読んでないので。
- でもむずいので手引きとして前提知識を解説した 『パターン認識と機械学習の学習 普及版』 なんてのもあるよ
|
3.2.3. 機械学習アルゴリズム-2(深層学習)の4冊
- 生成AIの隆盛でますます重要度が高まってますが、自然言語処理・生成AIは別記事にしましたので、ここは基礎として変更ありません
書名 |
概要 |
ディープラーニングを支える技術
|
- 類書がたくさんありますが難しいか端折っていて要点がわからないか
- 本書は第一人者のPFN岡野原氏の著者であり、要点を外さない解説
|
ディープラーニングを支える技術2
|
- 本書は前著に続き「生成モデル」「深層強化学習」について解説している
|
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
|
- ライブラリを用いたコーディング事例ではなく、ディープニューラルネットワーク自体をほぼスクラッチで書こうという本
- ディープラーニングよりもその基礎のニューラルネットワークの解説が中心。
- 数式の本が難しく、フレームワークでなぞるだけでは物足りない方が、原理をしっかり理解したい場合の導入としてちょうどよい本と思う。
|
深層学習 改訂第2版
|
- 本記事著者青木は本書の第一版を数式を解きおこしながら読んでだいぶ助けられました。
- 第二版は大幅増量し走り読み程度しかまだできてませんが。
- 骨格のところを丁寧に記述しているので、深層学習を扱うならば一度時間をかけて数式を追って読み通すのがブレない土台をしっかりさせる近道と思います
|
3.2.4. 因果推論・因果探索の6冊
- 昨年度本格的な動向調査をしておまけとして徹底的な読書ガイドを作成しました
- 相関があっても因果がないと良く言われますがならば因果を見出すには?についてですね。ここ1-2年で類書がどかんと増えました
- ビジネスでデータ分析をするのであれば単に予測するだけではなく売上増やコストダウンを目指すので、その結果を導き出すための原因探索がもっと、もっと求められますよ!
書名 |
概要 |
「原因と結果」の経済学―――データから真実を見抜く思考法
|
- まずはぜひこの1冊。
- 前提知識不要で、相関と因果など間違えやすいところが身につく。データ分析、政策等のかなりの専門家でもかなり間違っている人がいる。因果推論を扱うならまずは本書の内容を頭に叩き込む事が一番重要だと思う。
- 因果推論の基本の下記概念を数式なしで一通り知ることができます。
- ランダム化比較実験(RCT)
- 自然実験
- 差の差分析
- 操作変数法
- 回帰不連続デザイン
- マッチング法(傾向スコア)
- 回帰分析
|
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
|
- 因果推論・因果探索の決定版。本職で因果推論や因果探索を行うには必ずしも完璧ではないですが、エンジニアレベルでこの分野を知りたいというなら必要十分ではないでしょうか。
- Pearl派の構造的因果モデル、Rubin派の潜在反応モデル。そして因果推論と因果探索。また、最新の機械学習を用いた分析手法まで1冊に偏りなく盛り込まれています。しかもPythonコード例つき。
- ミックステープが決定版と思いましたが、因果探索まで扱っていること、機械学習手法も扱っていることもあり、因果推論・因果探索全般を知る1冊としては本書、因果推論の従来手法をもう少し深くならミックステープという使い分けでしょうか。
|
因果推論入門〜ミックステープ
|
- 本書の特徴は
- ルービン派、パール派に偏らず理論を網羅的に紹介していること。数式もありますがそれで押すのではなくコード例で理解を促していること。
- 理論の解説がメインですがコード例が豊富。書籍内ではRコードですがサポートサイトにStataやPythonのコード例あり。
- また本文内に類書との差別化として下記があり、本書を読めば因果推論の主だった手法を網羅できると言っているようです。
-
Imbens and Rubin (2015)(青木注『インベンス・ルービン 統計的因果推論』)は潜在アウトカムモデル、実験デザイン、マッチングと操作変数法については解説していますが、非巡回有向グラフ(DAG)、回帰不連続デザイン、パネルデータ、合成コントロール方については扱っていません。一方、Morgan and Winship (2014)は、DAG、潜在アウトカムモデル、操作変数法について解説していますが、回帰不連続デザイン、とパネルデータについては軽くしかふれられていませんし、Athey and Imbens (2017b)が過去15年間で因果推論における重要な革新と呼んだ合成コントロール法についても扱っていません。Angrist and Picheke (2009)は私のニーズにとても近いですが、私が極めて有用と考えている合成コントロール法やグラフィカルモデルについてふれられていません。
- 本書まで学べば余程深く求められない限りひと段落マスターと言って良いのではないかと思います(本式にはインベンス・ルービンが必要だろうけれど
|
A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは
|
- 「マーケティング」からカテゴリ移動。
- Amazon解説文のままですが、まさに下記の通りで必要十分な本かなと思います
経営層やリーダー、データサイエンティスト、エンジニア、アナリスト、プロダクトマネージャーなど、企業の全関係者を対象として、その概念から実験を実施するためのプロセス、よくある落とし穴、オンライン実験をスケールさせるために必要なことまで、A/Bテスト、コントロール実験の詳細を解説する。 Google, Amazon, Microsoft, LinkedInなどで実際に実践された経験から得られた教訓や落とし穴などがふんだんに盛り込まれており、データ駆動型の文化の確立、科学的な意思決定に必要なスキルを獲得できる。
|
反実仮想機械学習〜機械学習と因果推論の融合技術の理論と実践
|
- 因果推論で重要な「存在しない『反事実』をどう扱うか」について、データから「反実仮想」を作り出して比較しようという試み。従来の統計的因果推論では処置全体の因果効果か、サブカテゴリ単位での因果効果しか分かりませんが、サンプル個々の(マーケであれば顧客個々の)因果効果を知ることができる手法
- 因果推論の傾向スコアや強化学習などを駆使して「反事実」をどう作り出すかに挑む。
- 顧客行動のデータが大量に必要ですがネット企業ではそれが得られるので、実務に普通に使われているようです(Amazonなどでクーポンが出たり出なかったりお薦めがユーザーに違うなどは裏でこの分析がなされているはず
- データが溢れてきた今日では、この分野が急速に伸びると思うので、やや番外感もありますが先行投資的にリストアップしました。
|
Pythonライブラリによる因果推論・因果探索[概念と実践] 因果機械学習の鍵を解く
|
- Amazon書評にも書きましたが、従来の統計的因果推論を超えさらに精度向上を目指す機械学習を用いた手法を知るなら格好の本です
- 因果推論は統計的因果推論と呼ばれ統計的な手法がメインでした。因果探索もベイジアンネットワークなどの統計的な手法がメインでした
- 昨今は機械学習的な因果推論、因果探索が増えてきましたが類書では1章を割かれるかどうかくらいです
- 本書は機械学習による因果推論・因果探索にフォーカスしてDoWhy、EconMLなどのライブラリの解説も詳しい
- 大規模言語モデルをベースとした因果推論のCausal Bertの紹介もある
- 念の為、いきなり本書で因果分析を学ぶのは無理があります。従来の統計的因果推論や因果探索をある程度学だ上で、最新研究の機械学習による因果分析をフォローしたいという目的であれば最適な本となります
- また、機械学習による因果推論だと反実仮想機械学習がホットな話題ですがこれはありません
|
- 差し替え因果推論の科学
-
- なぜ因果ということを考える必要があるのかなど歴史を通じて現状までを解説した本。
- ただ、「因果推論の入門に良い」という書評がありますが、この本をいきなり読んで理解できるのだろうか疑問。ある程度学んだ後に戻ってきて読むと興味深く読めると思う。
3.2.5 異常検知の2冊
- 製造業を中心に異常検知のテーマは結構ありますが、通常の機械学習の本では扱ってないことが多いです。「ホテリングのT2」とか、製造業の方は統計手法に詳しい方が多いので、こっちが知らないということを避けるために基本的なことは知っておこう
書名 |
概要 |
Pythonではじめる異常検知入門 ―基礎から実践まで―
|
- ホテリングT2、k近傍法、One-Class SVMなど異常検知の基礎理論から、時系列異常検知までPythonコード例で学べます
|
入門 機械学習による異常検知―Rによる実践ガイド
|
- Rの本ですが解説が詳しいので挙げておきます。
- 異常検知の第一人者である井出先生の定番本。類書が少なく、前著が出るまでは異常検知が必要ならばまず手に取る1冊。
- 「Rによる実践ガイド」と副題があり、Rによるコード例もありますが、基本は理論の解説。ただ厳密な定義定理スタイルではなく概念の説明が主。
- 井出先生の サポートページ の内容紹介が詳しくて参考になる。
|
3.2.6 ネットワーク分析の4冊
- note記事ネットワーク科学、ネットワーク論を学んでいるに書いてますが、概ね下記です
- ネットワーク科学:自然科学系の分野についてのネットワークについて扱う
- ネットワーク論 :人文・社会科学系の分野についてのネットワークについて扱う
- データも大量に溢れSNSやGPSの重要性が高いのにおざなりかなと思っています。やろう!
3.2.7. スパースモデリングの2冊
- 機械学習の本に少しだけ記載がありますが、しっかり学ぶのであれば下記の本など
3.2.8. 強化学習の3冊
- これも実案件経験がほぼないです。案件が来た時の前捌きとして読んでおります。
- これだけでは実案件に対応できないのはわかりますが、最低限の知識として。
- ここも類書多数ありますが、定評ある本なども残念ながら未読なものは未掲載。Sutton本も初版読んだのですが、難しくて理解できず、外しています。その他多数読みましたが最低限間違いなさそうという、読んだものの中で良さそうなもののみに絞っております。
3.2.9. ベイズ統計・ベイズ機械学習の5冊
3.2.10. 評価指標・XAIの4冊
- 機械学習モデルの評価指標はLogLossが一般的だけれど、一般の方には伝わらない。一般の方には正解率が伝わりやすいですがTrue/Negativeが偏っている時や多群の時は微妙。テーマやユーザーの方が何を求めているかによって評価指標の良し悪しを見極めて適用する必要がある
- 機械学習はブラックボックスと言われてきましたがある程度まで中身がわかるようになってきました。XAIという呪文みたいな名前ですが、機械学習の説明性はビジネス用途のデータ分析では重要と思います
書名 |
概要 |
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
|
- 評価指標については機械学習解説本の中で触れられてはいましたが、その理論の解説がメインであり、どうビジネスのKPIとつなげるか等の解説は手薄だったと思います。
- Amazon紹介ページにあるように、本書ではデータサイエンスの空間とビジネスの空間での「指標」が異なることを意識し、それらの「指標」の特徴をしっかり把握した上で、どうつないでいくか、を解説してくれています。
-
「評価指標でXXXという最高のスコアが出た!」と喜び勇んで、機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが、ビジネス上のKPIと相関が高い評価指標を選んでいなかったために、KPIの推移を見てみると大した変化がありませんでした。 (中略) このような状況が起きてしまう背景にはさまざまな原因が考えられますが、あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。 (中略) 本書はこれらの疑問に答えるため、機械学習の良し悪しを決める評価指標を軸に、解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか、その原理を解説していきます。この原理が普遍的なものであれば、ビジネスがどんなものであっても応用できると考えることができます。
|
XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?
|
- AIの説明性について、ネット記事もお客様とのやりとりの中でも話題に挙がることが増えた。
- 大極的説明、局所説明などの考え方の整理から、LIME, SHAP, Permutation Importance, Partial Dependence Plot, Tree Surrogate, CAM/Grad-CAM, Integrated Gradientsなどの具体的なアルゴリズムの説明、実装例及びそれぞれの得手不得手などが詳しい。
- Kaggleなどのコンペでスコア上位を目指すのではなく、実務で機械学習を用い内容の説明が求められるならば必須ではないか。
|
実践XAI[説明可能なAI] 機械学習の予測を説明するためのPythonコーディング
|
- 概念の整理は『XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?』の方がわかりやすいが、本書は、自然言語や、画像、時系列など幅広く扱っている
|
解釈可能なAI 機械学習モデルの解釈手法を実践的に理解する (Compass Booksシリーズ)
|
- 類書では薄目であった「公平性とバイアス」の解釈についても新たに追加されています。
|
3.3. データ可視化の7冊
- 他のカテゴリでも書いてますが生成AIでデータ分析が簡単になるに連れ、「わかりやすく伝える」能力もますます重要に
- 基礎集計のための可視化と、分析結果を共有するための可視化があるかと思います。ここでは特に分けずにリストしています
- データ構造、分析内容が複雑となってきており、ユーザーへの説明はもちろん分析者自身もその結果を共有するのに苦労します。可視化は今後ますます重要になってくると思います
- その他関連書を データ可視化の本10冊 にも書いております ←これも更新しなきゃだごめん
書名 |
概要 |
指標・特徴量の設計から始める データ可視化学入門
|
- 他の本は、可視化までのデータ集計はすでにあって、「どう表現すると読み手に伝わるか」がメインなのですが、本書は「そのデータの特徴を表すのにはどのような加工、まとめ方があるか」の方にメインを置いているんですね、そこがいい。
- つまりデータ可視化だけではなく、特徴量エンジニアリングはどうしたら機械学習に適したデータ加工ができるかですが、そのなんていうんだろう、可視化エンジニアリングともいうべき内容なんですよ。
- 数量を把握する、メカニズムをとらえる、多変数をとらえる、データの分布をとらえる、関係性をとらえる、パターンをとらえる、の観点でノウハウを教えてくれます。
- 『データ視覚化のデザイン』とどちらを10冊に入れようか迷ったのですが、『データ視覚化のデザイン』は万人に必須、本書はどちらかというとデータ分析するならば必須という感じですかね。
|
データ可視化の基本が全部わかる本 収集・変換からビジュアライゼーション・データ分析支援まで
|
- (コーディングやツールの使い方以外ですが)データ可視化について必要なことが全部書いてある!!!
- データ可視化に携わる人(コンサルタント、データサイエンティスト、デザイナー等)の共通認識の書として輪読などが望ましいと思う
- 色の使い方、グラフの使い分け、表示の心理的影響など類書に書いてあることが全部書いてある
- 本当この1冊だけでいいかも来年からは大幅に見直す
|
フィナンシャルタイムズ式 図解の技術
|
|
ハーバード・ビジネス・レビュー流 データビジュアライゼーション
|
- 前著『フィナンシャルタイムズ式 図解の技術』とコンセプトは被ります
- フィナンシャルタイムズとこちらはハーバード・ビジネス・レビューのノウハウの違い
- どちらもビジネス系の複雑なデータをどうわかりやすく表現するかと考え抜いている専門家のノウハウなので有益ですが強いてあげると、前者は「図解の言語」としてシステマティックに分類を、本書はDataStoryと同じくどういうストーリーで表現するかに重きを置いてますが、こだわるならばどちらも読んだ方が良いと思います
- 直接この本についてではにですが同じチートシートをPython/matplotlibで実装している記事がありましたケース別データの可視化パターンとpythonによる実装
|
データ分析者のためのPythonデータビジュアライゼーション入門
|
- 棒グラフ、ヒストグラム、散布図など代表的なものから地図情報、ワードクラウド、インフォグラフィックスの触りまで、Pythonによるコード例付きで分かりやすいです。Pythonでデータ可視化をするならばまず手に取りたい1冊です。
|
ビジネスダッシュボード 設計・実装ガイドブック 成果を生み出すデータと分析のデザイン
|
- CDP(カスタマーデータプラットフォーム)の第一人者トレジャーデータの専門家がダッシュボードについて解説した本
- トレジャーデータのツールに依ることなく一般論として語られているのでツール関係なくノウハウを学べます
|
インフォグラフィック制作ガイド 「関係」を可視化する情報デザインの手引き
|
-
new
- データ分析における可視化とはちょっと毛色が違いますが、生成AIがデータ分析を自動化する中、ユーザの人にどう伝えるかが人間としての重要な役割となると思います
- 他の本はデータをどう正確に伝えるかがインフォグラフィックはその情報をどう伝えるか(必要に応じてデフォルメなど)が主です
- 今後重要性が増すと考えています
|
3.4. データ別
- 自然言語処理は生成AIとは本来別個にあるべきと思いますが、かなり重複する部分もあり、生成AIとまとめて
に別記事としました。
3.4.1. 時系列分析の8冊
- 時系列分析について私の経験が一番多いので多めになちゃいました。
- 需要予測をはじめどの業界でも出てくるデータだと思います。ただ、見せかけの回帰など時系列データならではの通常の回帰とは異なる点が多々あり、気をつけるためにもしっかりと学びたいところです
- その他関連書は 【決定版】需要予測・市況予測のための時系列分析の本リスト ←これも更新しなきゃだ
書名 |
概要 |
将来予測と意思決定のための時系列分析入門 様々な時系列モデルによる予測方法からその評価方法まで
|
|
Pythonによる時系列分析
|
- 下記本が最初の1冊と思っていましたが、本書の方が網羅性、実践例もあり適切か
- 時系列データの特徴、時系列分析手法の概要、そして異常検知、未来予測等のビジネス事例が7つと最初の1冊として十分な内容をPythonコードで試しながら学べる。
|
時系列解析: 自己回帰型モデル・状態空間モデル・異常検知(Advanced Python)
|
- 上記本が出たので優先度は下がったかも。でも状態空間モデルは上記本にないのでまだ読む価値あり
- 時系列分析で必要な知識の概要がほぼ網羅されており分野を俯瞰出来、Pythonで試しながら読み進められる。
- 時系列データの特徴
- ARIMA、VAR(GARCHはなし)をはじめとする時系列データの統計モデル
- それを拡張している状態空間モデル
- 状態空間モデルのエンジンとしてのベイズ推論(MCMCはなし)
- 時系列異常検知
|
Python時系列分析クックブック I―前処理―
|
- 時系列データの前処理の本。
- 他のデータと違い、日時の扱いが特殊、欠損補完や外れ値対応も独特なところがあり、それらについて37のレシピでPythonコード例を丁寧に紹介。
|
Python時系列分析クックブック II―モデル・機械学習―
|
- I巻に続いて分析のレシピ。
- 伝統的なARIMA、VARや機械学習、状態空間モデルを用いた手法まで37のレシピでPythonコード例を丁寧に紹介。
|
実践 時系列解析
|
- RとPythonを縦横無尽に使うなかなか無茶な本。だけど統計的な時はRが強いし機械学習ならばPythonが強く、時系列分析は両方の面があるので、無理に1言語にすることもないしな。
- 時系列の前処理・EDA、ARIMAなどの時系列モデル、状態空間モデル、深層学習による時系列解析、ヘルスケア・金融・政府統計などの応用面など多岐にわたる解説とコード例がある。
- 基礎を学ぶというよりも、他書である程度学んだ人がネタ探し、弱点補強的に読むと良いのではないかと思う。
|
経済・ファイナンスデータの計量時系列分析 いわゆる沖本本
|
- 「沖本本」として定評がある教科書(私は読んでいないが岩波書店の『時系列解析入門』も定評があるが品切れ。あるいはその改訂版『Rによる 時系列モデリング入門』でも良いかもしれない)。
- 基礎概念/ARMA過程/予測/VARモデル/単位根過程/見せかけの回帰と共和分/GARCHモデル/状態変化を伴うモデル、と重要な概念についての解説があります。状態空間モデルはないですがそれ以外の主だったところは全て押さえていると思います。
- 難しいけれど章末問題(数理的な、コードを書く的な両方)を解くことで理解が深まる。というか昔はこれくらいしかまともな本がなかったので。やや難しいので、数学が苦手な方は他のコード例が豊富な本で慣れながら本書を読むといいと思う。
- Rのみですが、章末問題を解いたコード例をQiitaに上げております 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第1章時系列分析の基礎概念-
|
点過程の時系列解析
|
- 地味。いわゆる時系列解析に似てそうで全然似ていない考え方が必要となる。データ分析本の推奨でまず出てこない。
- だけどですよ、出版社の本書紹介から引用すると
点過程の時系列とは,データがある着目するイベントの発生時刻の集合として特徴付けられるようなタイプの時系列である。実世界の様々な現象が点過程として表現することができ,例えば自然現象としては,地震,神経細胞のスパイク発火,遺伝子発現などが考えられる。さらに近年,人間の社会行動に関する様々な大規模データが蓄積され,それが利用可能になってきたことを背景として,金融取引,保険事故,人々のコミュニケーション,SNS上でのユーザーの活動等のデータを解析するために,点過程が用いられることが増えており,点過程の応用範囲は急速に拡大している。
- そう、金融取引やSNSデータなど今後引き合いがめっちゃ増えるのに誰も注目しておらず和書類書もほとんどない。これは狙い目です。
- 残念ながら100冊からは落としましたがイベント時系列解析入門、ウェブデータの機械学習なども参考になるかと思います
|
3.4.2. 画像処理の1冊
- 画像生成などは生成AI記事の方に書きました
- ただ『ディジタル画像処理 改訂第二版』はディジタル画像を深く知るための情報が満載なので、必読と思い残しています
書名 |
概要 |
ディジタル画像処理 改訂第二版
|
- 本書すげぇ。「画像処理エンジニア検定エキスパート対応」という資格用テキストらしいのですが、この手の本にありがちな、大家の名前+弟子が走り書きで内容がない、ではなく、ディジタル画像についてありとあらゆる(と素人の私は思った)内容が掲載されている。
- カメラレンズの構造やRGB、画像変換や行列、機械学習まで。画像データは一切扱わない、という人ならともかく、そうでない人ならば読んでおくと差がつくでしょう。
|
3.4.3. 地理空間の1冊
- 例えば緯度経度は単なる数値として扱えてしまうけれど、国レベルのデータであればx-y平面ではなく球面(地球規模ならば平たく潰れた球)であることを計算に加味する必要がある
- 狭い範囲でも近接した地域の効果により空間ラグなどを考慮する必要があり、地理空間は独特の扱いが必要
- その他関連書は地理空間データ分析の必読書
書名 |
概要 |
Pythonによる地理空間データ分析
|
- Pythonではまだ類書が少なく貴重な1冊
- 豊富なPythonコード例にて地理空間データの取り扱いについて一通り実行しながら学べます
- QGIS(地理情報データを扱うシステムGISのオープンソース版
- GoogleEarthEngine
- OpenStreetMap(GoogleEarthは商用利用で要ライセンスなので、商用利用もフリーなツール)
- GeoPandas(Pandasの地理空間版)
|
3.5. 機械学習周辺の手法5冊(実験計画法の1冊、数理最適化の2冊、意思決定の数理の1冊、行動経済学の1冊)
- データ分析の範囲というかとするとちょと微妙というか範囲外ではありますが、持ち込まれた分析テーマが機械学習なのか実験計画法が適しているのか、数理最適化なのか、その他の数理手法なのかは最低限、見極めた方が良いと思うので、最低限のところを
- 実験計画法
- Wikipediaによると下記の通りで、データがあり機械学習アルゴリズムでということではなく、色々な条件があり最適解を……、などというときに効果的かと思います。
実験計画法は、効率のよい実験方法を設計し、結果を適切に解析することを目的とする統計学の応用分野である。
- AIで解決したい、と要望が来てもルールベースだったり実験計画法で解くべきテーマというのがあります。それを見極めるためにも基礎的なところは押さえておきたいです。
- 数理最適化
- 機械学習は誤差の最小化の意味での最適化ですが、売り上げ最大化とか、コスト最小化とか機械学習を用いずに最適化を求める分野がある。きちんと押さえておきたい
- 意思決定の数理
- ビジネスは意思決定の場なのだから機械学習をビジネス適用するのであれば意思決定に役立つテーマ設定が必要という話を冒頭でしました
- 逆にいうと意思決定に役立てば機械学習でなくともよい&機械学習ではできず他の数理手法の方が適している場合がある
- 数理最適化もそうなのだがそれよりもっと広く、微分方程式モデル、ゲーム理論、オペレーションズリサーチ、等々
- 行動経済学(追加)
- ノーベル賞も複数受賞した分野、因果推論の結果の施策としては絶対に行動経済学が必要となるのですが今ひとつ盛り上がりませんね、
書名 |
概要 |
Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析
|
- 下記のような内容で、Pythonコード例月で学べます
第1章 データ解析や機械学習を活用した分子設計・材料設計・プロセス設計・プロセス管理 第2章 実験計画法 第3章 データ解析や回帰分析の手法 第4章 モデルの適用範囲 第5章 実験計画法・適応的実験計画法の実践 第6章 応用事例 第7章 さらなる深みを目指すために 第8章 数学の基礎・Anaconda・Spyder
|
要注意第2版が出ていますPythonではじめる数理最適化(第2版): ケーススタディでモデリングのスキルを身につけよう
Pythonではじめる数理最適化 ―ケーススタディでモデリングのスキルを身につけよう―
|
- 私は未読ですが第2版が出ています。
- 機械学習とはちょっと範囲外ですが数理最適化もビジネスでよく使われるので最近類書も増えてきました。ただ、なんのためにそれをやっているのかが掴みにくいところがあり、具体例とコード例の豊富な本書を選びました
- 前半は、連立一次方程式や線形計画法の簡単な例で数理最適化の基礎とPythonコード例を学びます。
- 後半はビジネスに近い例を解いていきます。
第Ⅰ部 数理最適化チュートリアル 第1章 数理モデルとは 第2章 Python数理最適化チュートリアル 第Ⅱ部 数理最適化のケーススタディ 第3章 学校のクラス編成 第4章 割引クーポンキャンペーンの最適化 第5章 輸送車両の配送計画 第6章 数理最適化APIとWebアプリケーションの開発 第7章 商品推薦のための興味のスコアリング
|
最適化手法入門
|
- 数理最適化も昔から研究されている分野ですので良書がたくさんありますが、東大のOCWでも使われているということとPythonコード例ありとのことで本書を選びました
|
Python意思決定の数理入門
|
- 数理最適化の項でも申し上げましたが、求められている分析テーマが機械学習にハマるものと異なるものがあります。その場合に「わからない」ではなく、調べるための当たりをつけるために広く薄く知っておくというのが私のモットーなため、こういう広く浅い本を多めに読んでいます
- Amazon書評で「実用的ではない」と低評価の方がいますがわかっちゃいない。「意思決定の数理」なんて広い分野を1冊でビジネスレベルに持ってけるわけがない。あくまでも自分のテーマに近いのがどの分野かと、次に学習を深めるためのガイドブックでしかなく、逆にそういうガイドブックを求めるための方の1冊
第1章 はじめに 第2章 戦略の微分方程式モデル 第3章 基礎的な意思決定の数理的扱い 第4章 ゲーム理論の基礎 第5章 意思決定のための OR の基礎 第6章 組合せ最適化による意思決定 第7章 マルチエージェントベースモデリングによる意思決定 第8章 強化学習による意思決定 第9章 不確定性を含むゲームでの意思決定 第10章 集団の意思決定 第11章 意思決定とメカニズム・デザインの視点
|
分析者のための行動経済学入門
|
-
new
- 経済学の分野であり、本来は従来の統計学を学んだ後の発展の分野ではあります
- ただビジネス上の施策がどう効果があるかを知るならば、因果関係の因果推論、その施策がどれだけ人間に効果を及ぼすかの行動経済学は必須なのですがデータ分析界隈ではほとんど知られていません
- そこにさすがソシムさん
- 経済学の見地からではなく、データ分析者の見地からの本からですので本記事読者の方々にも入りやすいと思います
|
3.6. 数学的基礎(微積・線形代数・集合と位相)の4冊
- 大学1年生レベルの微分積分と線形代数からスタートという世界。そこあたりは多数類書が出ているので、書店で体に合ったものを(内容だけでなくて装丁や重さ、紙/電子書籍もあると思う)
書名 |
概要 |
これなら分かる最適化数学
|
- 機械学習でも用いられる最適化に必要な(もののみの)微分積分、線形代数の解説。好著中の好著と思いますが、紹介されることが少ないので、これで差が付きます!
- 機械学習・深層学習のための数学、と題した本が出ていますが内容は微分積分と線形代数の普通のテキストをかいつまんで式の羅列のみって残念な本が多い。機械学習は結局は、モデルを作る→正解との誤差を最小化する≒最適化!、なのでここに特化した本書が一番核心をついて分かりやすいと思います。
- コンセプトは上記書「統計学の~」に似ているが本書は、より目的の最適化に特化しており、例題を解いていくと定着するようになっている。
- 「最適化」という言葉がごっちゃでわかりにくいですが、機械学習は誤差を最小にする最適化、数理最適化はコストを最小にするなどの最適化となりどちらも「最適化」が必要です
|
プログラミングのための線形代数
|
- 微分積分は、傾きを求める、細かく分けて足し合わせる、ってなんとなく意味がわかるけれど線形代数って一体なんなんだ?
- 線形代数の「意味」が分かる
- 行列は写像だ!
|
スタンフォード ベクトル・行列からはじめる最適化数学
|
|
「集合と位相」をなぜ学ぶのか
|
- 微積と線形代数は手を動かす労力を惜しまなければなんとかなると思う。でも集合と位相は「そもそも何をやっているのか?」が全くわからなくなる
- 最初から読まなくてもよいと思う。以降で紹介する本のなかで、〇〇集合、位相〇〇などの沼にはまりかけたら本書を読むといいと思う。完全解決するわけではないが、ちゃんと意味があってそういった概念が導入されていることは分かる。私も泥んこになりながら格闘中なので大きなことは言えないが、統計学がセクシーな学問とするのであれば、集合・位相をマスターすることが、下記の分かれ目と思っている。
- 一発屋のグラビアアイドルで終わるのか、女性にも一目置かれる素敵な女優になれるのか
- 一発屋のアイドル歌手で終わるのか、男性にも一目置かれる素敵な俳優になれるのか
- 人工知能に使われるデータ処理屋で終わるのか、人工知能にも一目置かれる素敵な課題設定者になれるのか
|
3.7. プログラミングの3冊
- プログラマなら言わずもがなな面もありますが、私はRからデータ分析に入ったこともありあえて挙げてみました
- オープンソースのAutoMLであるPyCaretについても、プログラミング≒コーディングによる分析環境との位置付けでここに入れます
書名 |
概要 |
Python 実践AIモデル構築 100本ノック
|
- 100本ノックシリーズは多数出ており、100個の課題がありそれをPythonで解いていくものです。
- 本書は分析手法ごとに1つずつ課題を解いていくので、頭の整理にも良いかなと思います。
- 『[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践』を実践すればそちらでも良いかなと思いますが、こちらの方は手っ取り早く復習という感じですかね。
|
PyCaretで学ぶ 機械学習入門
|
- オープンソースのAutoMLであるPyCaretのチュートリアル的解説書です。
- 下記目次のとおりPyCaretでは前処理からデプロイまでが可能です。
CHAPTER 01 Pycaretとは CHAPTER 02 環境構築 CHAPTER 03 機械学習の流れ CHAPTER 04 教師あり学習 回帰分析 CHAPTER 05 教師あり学習 分類 CHAPTER 06 教師なし学習 クラスタリング CHAPTER 07 データの前処理 CHAPTER 08 モデルチューニング CHAPTER 09 評価指標 CHAPTER 10 デプロイ
- 商用のAutoMLツールと比べると非力ではありますが、知るコストに比べ得られるものが多い選択肢の1つかなと思います。
|
Pythonで学ぶアルゴリズムとデータ構造 データサイエンス入門シリーズ
|
- 機械学習ではないアルゴリズムの本です。
- 機械学習と言っても教科書データのように綺麗なデータばかりではなく、通常のアルゴリズムを用いてデータ加工や探索が必要な場合があります。基本的なアルゴリズムは押さえておくと便利だと思います。
|
4. データエンジニアリング力
4.1. データ管理の3冊
- テーマが決まったとして、往々にしてあるのが、下記です
- データがない
- データはあるが担当者が独自に加工したExcel等で分析に耐えうるようなものではない
- IDが統一されてなくて紐付けできない
- A部署に依頼すれば入手できるが、何に使うのか明示しないと入手できない
- こうならないためにどうするか、こうなっていたらどうしたら良いかが2番目のハードルです
- 大規模データを取り扱うことも増えてきたと思います。Apache Spark本を追加しました
書名 |
概要 |
実践的データ基盤への処方箋
|
- いざデータ分析をしようとすると、「あると思っていたデータがない」、「精度を上げるためには〇〇のデータが必要だが他部署に依頼する必要・渋られる」、「ID連携が部署館でなされていない」等々社内データが「使える」状態になっていないことが噴出します。
- Amazon紹介ページにあるように、社内データを社内で「使える」状態にするためのノウハウを解説した本です。
「会社内でバラバラになっているデータを集めたが、これから何をしていいか分からない」 「最新技術を利用してデータ基盤をつくったがニーズがなかった」 「頻繁に障害が発生するデータ収集に対応してきたが、そのデータは誰にも利用されていなかった」 「データの意味が分からず、データの意味の聞き込み調査で1日が終わった」 (中略) そこで本書では、データ基盤の本来の機能を甦らせるため、またデータ基盤の構築でつまづかないためノウハウを処方します。データ整備、システムの知識、組織のあり方、データの取り扱いといった"データ基盤を機能させるためのノウハウ"を、この道のプロが惜しげもなく披露します。データ基盤が思うように機能していない、これからデータ基盤を構築したいが何からはじめればよいか分からない、といったことで悩まれている方には一読の価値があるはずです。
|
世界標準のデータ戦略完全ガイド データセンスを磨く事例から、データの種類と仕組み、戦略策定のステップまで
|
- データ分析を含んでデータ活用についての戦略をどう立てどう実行するかのノウハウの本です。
- Amazon紹介ページにはこう紹介されています。
データ戦略の目的は主に6つあります。 1)意思決定プロセスを改善する 2)顧客(市場)を理解する 3)より優れたサービスを生み出す 4)より優れた製品を生み出す 5)業務プロセスを改善する 6)データを収益化する (中略) AI(機械学習など)の仕組みや、インサイトの見いだし方、データインフラの整備、データ能力の高い組織のつくり方までしっかりフォロー。
- 巻末付録のテンプレートをもとに自社の状況を書き下してみると良いと思います。著者記事青木は別のテンプレートで実施していますが、「あ、ここの共通理解が得られてないな」と早めに気づいて対処することが肝心です。
|
Apache Spark徹底入門
|
- 本書はDatabricksのエンジン部分というか、Apache Sparkを使いやすくまとめたのがDatabricksで、あり本記事著者青木が触れていたというところもあり。
- 大規模データを扱うにはいろいろAzureやAWS、Google系はそれぞれみんなお気に入りがあるっしょ、ただそういうのに馴染みがなく大規模データの取り扱いで知りたいという方には、ま、Sparkならそんな間違いないっしょというところで挙げました。
|
4.2. 構築・運用の2冊
- というわけでここまでマスターするとそれなりの結果が出てきていると思いますが、運用となるとまたハードルがあります
- どう構築したら良いのか、検証ではそれなりの精度だったモデルが精度が悪化していないか等、がんばろうぜ
書名 |
概要 |
AIエンジニアのための機械学習システムデザインパターン
|
- では実装となった時にどういうノウハウが必要か。構築・運用について。
- 本記事著者青木はこの項あまり実績がありません。最低限のところは知っておこうと学んだ程度です。
- Amazon紹介ページにある通り、機械学習の実装のためのデザインパターンを解説したものです。
【本書のゴール】 ・機械学習を実用化する方法が学べる ・Pythonによる機械学習ワークフローおよびWebアプリケーション開発の概要を学べる ・機械学習を組み込んだシステムの運用ノウハウを得られる ・機械学習システムのトラブルシューティングや調査方法を学べる
|
ディープラーニング実践ガイド
|
- 深層学習を用いたアプリ開発や運用の実践例やノウハウ集
- TensorFlowベース
|
5. 資格・KAGGLE
5.1. 資格の3冊
- 資格は必ずしも必要ではないかなと思います。ただ触れておいた方が良いかなの観点として、
- その分野のスタンダードな知識体系を知ることができる
- 特にベンダー特定の分析環境を使っていると視野が狭まりがちなので
- PJのGo/Stopや、採用・転職を考えるなら採否の判断をする人は必ずしも専門家でないので資格が生きることが多い
- 社内共通言語って観点も重要ですね
書名 |
概要 |
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第3版
|
- G検定がDS関連の資格で一番広まっているのかな。持っている人が多いので話を合わせるためにも読んでおいて損はないかなと思います。
- データ分析を専門にしている人でも自分の担当については詳しくなりますが、世の中一般ではここが問われているんだと知ることも必要かなと思います。新案件がどこからくるかわからないので
|
日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック
|
- 統計検定のテキストは要点の羅列で、教える気あんのかゴラァって感じだったのが、本気出したらやればできるじゃんって感じ。統計検定1級よりも広い範囲ではないかと言われる統計検定準1級向けのテキストかつ問題集なのですが、東大出版会統計学入門赤本より広い範囲(一部機械学習的な分野も含む)で、データ分析するための基礎として「こういうところを知ってなきゃだめだよ」という目安としては非常に良いのではないか。
- 広範囲を1冊にしているため各項目の解説は要点のみとはなりますが、以前のテキストの羅列とは異なり、丁寧であり、章末問題で理解を確かめられます。いきなり本書をテキストとして学ぶのは無茶ですが、いろいろテキストで学んだ後に総整理や、漏れている項目の補強などに役立つと思います。
- 必ずしも必須ではないですがこれだけ知っておくと強みになりますね。
- (注)本記事著者青木はまだ受けてないっす
|
応用基礎としてのデータサイエンス 改訂第2版 AI×データ活用の実践
|
-
new
- 統計検定は統計の資格であり必ずしもデータサイエンティストが対象ではないのですが新たにデータサイエンス資格が出来、そのTopレベルがデータサイエンスエキスパートです
- 試験範囲が「数理・データサイエンス・AI教育強化拠点コンソーシアムの『スキルセット及び学修目標 第二次報告』および、モデルカリキュラム(応用基礎レベル)に準拠」となっておりそのテキストが本書(必ずしも試験対策書とはなっていません)
- 私は旧版を読みました(すぐ改版が出て焦っている)。試験のレベルからすると本書はやや優しめかなと思いますがデータサイエンスの分野を広く網羅しているテキストとしても使えます
|
5.2. KAGGLEの4冊
6. Next!のX5冊
- ディープラーニング、生成AIってなると全部そちらになびくのが嫌い
- 今年はこの5冊にしました
- 継続
- 進化的アルゴリズム
- Human in the Loop
- 連合学習
- 追加
書名 |
概要 |
Pythonではじめるオープンエンドな進化的アルゴリズム
|
- 遺伝的アルゴリズムを初めて知った時はすごいなと思ったもののその後表舞台に出ているのをほとんど見ず。和書もほとんど新しいのがなかったですよね
- 遺伝的アルゴリズム自体も「進化」していて生物進化を模したアルゴリズムは進化的アルゴリズムと呼ばれるらしい
- Sakana AI sakana.ai/blog の言語モデルを進化的アルゴリズムでマージして大規模にしようというので話題になりましたね。この考え方は有望かなと思うので、挙げました
|
Human-in-the-Loop機械学習
|
- これはNext技術というよりも泥臭い話
- 最初"Human-in-the-Loop"という言葉を知った時「どういう夢技術だろう」と思ったけれど、実際は「AIでの全自動は無理だからLoopの中に人を入れて」という泥な話だった
- 本書ではそのうち、学習データ作成のアノテーションの話がメイン。
- ひたすら正解をつけるだけじゃなくて、間違いやすいデータ、半自動化などいろいろテクニカルな話がある
|
Federated Learning: プライバシー保護下における機械学習
|
- 連合学習について唯一?の和書
- 連合学習とは、分散しているデータを1つにまとめないで分散したまま学習して結果を得るもの
- 分散処理でリソースを有効活用の面もありますが、主には外に出せないデータをそのまま学習させて学習結果のみを得る、そして元のデータの秘匿性は侵さないみたいな技術。
- 個人や企業の秘匿情報を侵さずに扱えるのでこれからは必須の技術と思います
|
記号創発システム論 来るべきAI共生社会の「意味」理解にむけて (ワードマップ)
|
-
new
- 例えば「りんご」という言葉から実際のりんごにどう認識を接地させるのかという記号接地問題が人工知能研究にはあります
- それに対し、人・ロボット・AIなど複数エージェントが、環境との相互作用とコミュニケーションを通じて「りんご」というような記号を作る、つまりその創発メカニズムをモデル化・実装し、検証する研究枠組みというようなものです
- 現在主流のスケーリング則による大規模化とは違うアプローチとして個人的に期待しています
- 参考記事としては研究チームの方の記号創発スタディノート#1 なぜ、いま記号創発システム論なのか? ~生成AI時代の「意味」の新学理へ~
|
Data-centric AI入門
|
-
new
- Andrew Ngが2021年に提唱
- 機械学習において従来のようなモデルよりも、データに着目したアプローチ
- 従来は与えられたデータにどう最適化するかとモデルを改善してきましたが、限界が見えてきている
- Data-centricの考え方は、モデルよりもデータの改善(拡張、アノテーションなど)によって精度を向上しようという考え方
- 生成AIのための基盤モデルという考え方が出てきてより重要性を増していると思います
|
改訂履歴