519
664

2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊

Last updated at Posted at 2024-08-25

2023年版データ分析の100冊 が好評でしたので、2024年版を作りましたよ。

本記事のめあて

  • IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております
    • 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました
    • ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせて理論のほかはPython本のみにしています
    • 「本記事のR版のご要望があれば爆裂書きます!」と去年書いたのですが要望0
      • あはは、Rの本は今回撲滅しました!←してなかったごめんなさい
    • こういうリストを挙げる奴は大抵読んでいない、と過去にも言われたのですが、未読本は削除しました
      • 最近好著連発なので読んでいる途中だけど挙げている本はあります(初版を読んだが改訂版が出てそちらは読んでいないのが何冊か、PRMLの下巻も読んで仕事で因果探索調べるときグラフィカルモデルの解説めっさ役立ちました)
  • 機械学習のおすすめ本リストって増えてきましたけれど

全体俯瞰

今年の特徴(2023年版からの更新)

  • 2023年版からの更新
    • カテゴリレベル
      • 新設
        • 必須の10冊
          • 復活させました。これを読んでおくと「なんもわからん」が減り、「こいつ足腰強いな」感が出るかなと思います
        • 生成AI
        • Next!
          • 直接データ分析の業務には必要ないかもだけど「新規事業考えろ」とか新しいことやらなきゃの人のためのカテゴリを新設しました
      • 削除
        • 「音声処理」「信号処理」「マーケティング」
          • 音声処理、信号処理は私があまり経験なく
          • マーケティングはこれはこれで別記事にしようと
    • 書籍レベル(下記表参照)
      • 前回100冊と言いながら102冊でした(上下巻は1冊、I, IIとあるのは2冊と数えてます)。
      • 20冊削除
        • 2023年版より削除した本
          • 2.2. 前処理・特徴量エンジニアリング
            • サンプルサイズの決め方
          • 2.3.1. 分析アルゴリズム 統計学
            • 統計学のセンス
          • 2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)
            • AI技術の最前線 これからのAIを読み解く先端技術73
            • 創るためのAI機械と創造性のはてしない物語
          • 2.3.4. 分析アルゴリズム 因果推論
            • 政策評価のための因果関係の見つけ方 ランダム化比較試験入門
            • つくりながら学ぶ! Pythonによる因果分析 因果推論因果探索の実践入門
          • 2.3.5. 分析アルゴリズム 異常検知
            • 異常検知と変化検知
          • 2.3.6. 分析アルゴリズム ネットワーク分析
            • ネットワーク分析 第2版
            • ネットワーク科学: ひと・もの・ことの関係性をデータから解き明かす新しいアプローチ
          • 2.3.10. 分析アルゴリズム 評価指標・XAI
            • 機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック
          • 2.5.4. 画像処理
            • PyTorch実践入門 ~ ディープラーニングの基礎から実装へ
          • 2.5.5. 地理空間
            • 空間統計学 自然科学から人文社会科学ま
          • 音声処理(カテゴリごと削除)
            • Pythonで学ぶ音声認識 機械学習実践シリーズ
          • 信号処理(カテゴリごと削除)
            • Python対応 ディジタル信号処理
          • 実証分析(カテゴリごと削除)
            • 進化するビジネスの実証分析
            • 実証分析入門 データから因果関係を読み解く作法
          • マーケティング(一部「因果推論」に移動、以下は削除)
            • マーケティングデータ分析
            • マーケティング・エンジニアリング入門
            • 需要予測の戦略的活用 ―マーケティングとサプライチェーンマネジメント(SCM)をつなぐ
            • 推薦システム実践入門 ―仕事で使える導入ガイド
      • 24冊追加
      • 4冊改版あり更新
      • Next break 4冊
        • 記事時点で発売前だが本リストに入りそうな候補
    • その他
      • 「レベル感」列は削除
      • 既存書籍でもコメントを更新した箇所あり
2024年版機械学習・データ分析の100冊+5冊 2023年版データ分析の100冊 更新状況
1. 必須の10冊 - カテゴリ新設。他カテゴリ(プロジェクト全体像から2冊、テーマ探索・定義から1冊、データの準備・管理から1冊、前処理・特徴量エンジニアリングから1冊、統計学から1冊、機械学習アルゴリズムから2冊、データ分析のための数学から1冊、可視化から1冊)から移動。1冊更新。差し替え候補1冊
2.1. ビジネス・テーマ定義の4冊 1.1. PJ全体像の4冊 1.2. テーマ探索・定義の4冊 カテゴリマージ。一部「必須の10冊」に移動
2.2. 前処理・特徴量エンジニアリングの5冊 1.4. 前処理・特徴量エンジニアリングの5冊 1冊削除。「必須の10冊」に1冊移動、1冊更新。2冊追加
2.3.1. 分析アルゴリズム 統計学の3冊 1.5. 分析手法 統計学の6冊 1冊削除。「必須の10冊」に2冊移動。差し替え候補1冊
2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の5冊 1.6. 分析手法-アルゴリズム-1の7冊 2冊「必須の10冊」に移動
2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の4冊 1.7. 分析手法-アルゴリズム-2(深層学習)の7冊 2冊削除。1冊「生成AI」に移動
2.3.4. 分析アルゴリズム 因果推論・因果探索の6冊 3.1. 因果推論の5冊 2冊削除、2冊追加、1冊「マーケティング」から移動。差し替え候補1冊
2.3.5. 分析アルゴリズム 異常検知の2冊 3.2. 異常検知の3冊 1冊削除
2.3.6. 分析アルゴリズム ネットワーク分析の1冊 3.3. ネットワーク分析の2冊 2冊削除、1冊追加
2.3.7. 分析アルゴリズム スパースモデリングの2冊 3.4. スパースモデリングの2冊 変化なし
2.3.8. 分析アルゴリズム 強化学習の2冊 3.5. 強化学習の1冊 1冊追加
2.3.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の4冊 3.6. ベイズ統計・ベイズ機械学習の2冊 2冊追加
2.3.10. 分析アルゴリズム 評価指標・XAIの4冊 1.8. 評価指標・XAIの4冊 1冊削除、1冊追加
2.4. データ可視化の6冊 1.9. 可視化の6冊 変化なし。差し替え候補1冊
2.5.1. 自然言語処理の6冊 2.1. 自然言語処理の5冊 1冊追加
2.5.2. 生成AIの6冊 - カテゴリ新設。1冊「深層学習」から移動かつ更新。5冊追加
2.5.3. 時系列分析の7冊 2.2. 時系列分析の5冊 2冊追加
2.5.4. 画像処理の1冊 2.3. 画像処理の2冊 1冊削除
2.5.5. 地理空間の1冊 2.6. 地理空間の2冊 1冊削除
2.6. 機械学習周辺の手法4冊 3.8. 機械学習以外(実験計画法の1冊、数理最適化の2冊、意思決定の数理1冊) 変化なし
2.7. 数学的基礎の4冊 4.1 データ分析のための数学(微積・線形代数・集合と位相)の5冊 1冊「最初の10冊」に移動
2.8. プログラミングの3冊 4.2. コーディングの3冊 1冊「最初の10冊」に移動。1冊追加
3. データ管理の3冊 1.3. データの準備・管理の2冊 1冊追加
4.1. 構築・運用の2冊 1.10. 構築・運用の2冊 変化なし
4.2. 資格の2冊 5.1. 資格の2冊 1冊更新
4.3. KAGGLEの3冊 5.2. KAGGLEの3冊 変化なし
5. Next!の5冊 - カテゴリ新設。5冊追加
- 2.4. 音声処理の1冊 カテゴリ削除
- 2.5. 信号処理の1冊 カテゴリ削除
- 2.7. マーケティングの5冊 カテゴリ削除
- 3.7. 実証分析の2冊 カテゴリ削除、1冊「因果推論・因果探索」へ移動
計105冊 計102冊

凡例

  • 書籍紹介での凡例
    • new
      • 2023年版にはない新たな本を追加。
    • update
      • 同じ本だが改版された。
    • next break

      • 記事時点で発売前だが本リストに入りそうな候補
  • 図の凡例

長いオープニングは終わり、それでは「2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊」スタートです!

1. 必須の10冊

  • データサイエンティスト協会の「ビジネス」「データサイエンス」「データエンジニアリング」3つの要素が必要だよ、に合わせてみました
  • 冒頭でも述べましたがこの10冊を読んでおくと、「なんもわからん」がかなり減ると思います
  • そして、後続の各カテゴリの本へ接続しやすいのかな
カテゴリ 書名 内容
最初の1冊 Python機械学習プログラミング[PyTorch&scikit-learn編] (impress top gear)
  • update新しい版
  • 私が読んだのはこのシリーズの初版で正直この版は読んでませんが、変わらず評判が良いので挙げました。第3版まで出て2022年に新たにPyTorch & scikit-learn編となっていますが、実質第4版との位置付けつまり最新版とのことで良いと思います。
  • 学び方はいろいろあると思いますが、数式を見てすぐ具体的イメージを掴める人は別として、そうでない方はまずコード写経で、こういうデータを投入してこのライブラリを使うとこういうアウトプットが出るのが〇〇アルゴリズムなんだ、という体で覚えてあとで理論を学ぶ方が早道と思う
  • なので機械学習の広い分野のコードが載っている本でコード写経が一番だと思っています。
  • 私はRから入ったので『Rによるデータサイエンス』という本ではじめましたが、それが現在の基礎になっています。Pythonで機械学習の本も多数出てますので本書にこだわる必要はなく、伝えたいことは「まずは習う(数学で行き詰まる)より慣れろ(コード写経で機械学習を体験しよう)」です。
ビジネス データ分析・AIを実務に活かす データドリブン思考
  • 「AIは目的ではなく手段」ですのに「目的」と押し付けられ困っている方が多いため、反論の理論武装のためにも必須の10冊としました。
  • 実際のビジネスへのデータ分析適用の第一人者と言っていい河本薫氏の本
  • キーワードは「意思決定」
    「現場で活用される」とは「現場の意思決定に活用される」ということ。「意思決定に活用される」とは「意思決定プロセスに分析結果が使われる」ということ。そして、意思決定プロセスに分析結果が使われるには、意思決定に有用なデータ分析を行うだけでなく、分析結果が意思決定に活用されるように「意思決定プロセスを設計する」必要があることに気づきました。
  • ここ非常に重要と思う
    「問題」とは、目標と現状との間いにあるギャップのこと。
    「課題」とは、目標と現状とのギャップを埋めるためにやるべきこと、すなわち、「問題」を解消するためにやるべきこと。
  • そしてビジネスで用いられる意思決定を6種類に分類しています
    A 反復選択型
    B 体制選択型
    C 原因特定型
    D 計画策定型
    E 仮説思考型
    F 経営判断型
  • このように分析テーマについて非常に論理的にビジネスにデータ分析を適用するということはどういうことかが解説されています
ビジネス AI・データ分析プロジェクトのすべて ビジネス力×技術力=価値創出
  • プロジェクト全体像の本ですが「ビジネス」に位置付けました
  • データ分析プロジェクトの全体像を俯瞰的に解説した本。アルゴリズムがどうのではなくて、体制の組み方、外注の仕方などプロジェクト自体をどう設定してどう動かすのかについて書かれている。
  • 入門として薦める方がいらっしゃいますがこれを読んでしっくり来るかは疑問。ある程度試行錯誤したあとの整理に良い本ではないかと思います。
データサイエンス 分析者のための データ解釈学入門
  • 「私が5年も回り道して学んでいたのは何だったのか!」
  • ただ、最初にこれだけを読んでも理解が深まるかは分からない。前述の本等で自分で手を動かしていろいろ苦労して疑問が山のように出てから本書を(まー並行してでもいいか)読むと理解が深まると思う。
  • 帯にもありますが「データの取得・分析・解釈・活用の各段階で知っておくべき技術」が分かる。まぁまぁのベテランでも誤解しやすいところも分かる。必読の本。
データサイエンス 基礎から学ぶ統計学
  • 東京大学出版会『統計学入門』を入門に指定されることが多いですが(昔は私もそうしてた)正直統計学の概念は難しく、もっと基礎的なところに絞ってしっかり身につけた方が良いかと。そうなるとこの本。
  • 北大農学部の統計学入門の授業をテキストにまとめたようです。ですので必ずしも数学に馴染みがない学生向けに非常に丁寧にリアルな例とグラフを多用してわかりやすく説明しています。
  • 後述の『データ分析に必須の知識・考え方 統計学入門』の方が範囲が広いのでやや手薄になりがちな基本概念を非常に丁寧に解説しています。「統計学は問題なし」という方でもなければまず本書が良さそうです。
データサイエンス はじめてのパターン認識 いわゆるはじパタ本
  • これも類書がたくさん出てきたので他にも良い本があるかもですが(正直私がこれ以外知らんので)、いまだに売れているようで間違いはないと思う。
  • 本書が理論入門の定番とされている、と思う。深層学習については言及がないが、機械学習で用いられる手法についてほぼ網羅されている。後掲PRMLを勧める方が多いが、研究者でもない限りいきなり読んでも挫折すると思うのでまずは本書からが良いと思う。
  • ディープラーニングについては書いてませんが、まずは基本を押さえるということで。ディープラーニングについては本書のディープラーニング編もあるようですが、類書がたくさんありますね(後述)。
データサイエンス 統計学のための数学入門30講
  • とは言うものの数学が必須だよね。大学で学んだから代替だいたいは分かるのだけど統計との関連が今ひとつ、、、ってな方に適しています。統計学でどのように使われているかを念頭に置いた、微分積分、線形代数の紹介。1冊で紹介しているので各内容の説明は薄め。
  • 最近は「機械学習のための数学」のような本が増えているのでそちらでも良いかもですが、流行りにのったやっつけ本?というようなちょっと不安な本もありますが、本書は数学入門書を多数書かれている先生の本で安心。
  • 一通り勉強した後の確認や、過去に勉強したが錆び付いている人の再起動、今学んでいることを統計学と結び付けたい人向け。
  • 講談社機械学習プロフェッショナルシリーズ『深層学習』の読み解きをした時に、数学でわからないところはほぼ本書に出ていました。
  • ただ、薄い本書に微分積分と線形代数を押し込めているので、初学者には厳しいと思います。微分積分と線形代数の入門書は鬼のようにたくさん出ているので、大学での微分積分、線形代数なんてまるでわからんって方は本書の前に、マセマなど大学1年生用の簡単な本から。
データサイエンス 改訂新版 前処理大全
  • update新しい版に。(残念だが当然か)Rが消えてPolarsが入ったのですね。
  • 実業務ではデータの汚さと格闘することになります。
  • データ分析の8割は前処理、などと言われる割にはまとまった解説書がないところに前の版が出てその後類書が増えましたけれど分かりやすさ、網羅性でやはり本書ですね。
  • データの集計・結合・分割・生成などの整形の大全。1つの課題に対し、SQL、Python /Pandas系、Python/Polars系の3言語(ライブラリ)でどう対処するかのコード例、また言語による得手不得手の明示。
  • ググればたいてい見つかるものだけど、思い込みで局所解に陥っていたら効率の悪いコードにハマっているかも。一度正解を眺めておくだけでも前処理の深みにハマることを避けられると思う。
データサイエンス データ視覚化のデザイン
  • 著者はTableauのコンサルティングがご専門のようですが広くデータ分析での可視化にもそのまま適用できる本かと思います。データ分析に詳しくないユーザーや顧客に分析結果をどう提示するかに悩んでいる方には必読と思います。
  • 作図をしているとついつい情報を詰め込みがちになるのは誰しも経験のあるところではないでしょうか。本書にある「詰め込むな削れ」は痛いところを突かれたと思う方も多いのではないでしょうか。
  • 通常のデータ分析での可視化の本はライブラリの使い方がメインですがそもそもどういう伝え方をしたいのかで図が決まりますがそこを解説している本は少ないです。目次も、魅せ方を意識した内容です。
    第1章 データ視覚化「キモのキモ」
    第2章 これだけでグッとプロっぽくなるコツ
    第3章 目的に応じたチャートの選択
    第4章 事例で学ぶーダッシュボード作成過程思考キャプションー
    第5章 本当に組織に根付かせるために
データエンジニアリング データマネジメント大全
  • データエンジニアよりももうちょっと俯瞰にその組織のデータ管理のあり方のような本です。
  • 分析者の環境により、何かGUIツールがあるのかSQLをガシガシ書くような環境か、データエンジニアが別にいるのか全部自分でやるのか、によりますがデータマネジメントの基本は知っておいたほうが良いですね。
  • 下記目次のとおり、データ分析ではなくデータ活用のためにどうデータを管理するかの本です
  • 機械学習の教科書だとわかりやすいデータが用意されていて、これで分類しましょう、とかとなりますが、現実の問題では、あると言われたデータがない、言われたのとは全然違うフォーマット、担当者が独自のExcelでバラバラに持っている、ID体系が異なり突き合わせができない、A部署にあると言われたがA部署からNoと言われもらえない等々が発生します
  • そうならないために、それを解決するためにどうするかという本です
    第1章 DXの正しい歩み方
    第2章 DX推進の鍵を握るデータドリブン経営
    第3章 データドリブン経営の成敗を左右するデータ利活用
    第4章 データ利活用を支えるデータマネジメントの全体像
    第5章 データマネジメント 戦略層
    第6章 データマネジメント 実行層
    第7章 データマネジメント 組織とヒト層

next break

  • 妥協しないデータ分析のための 微積分+線形代数入門 9/21発売予定
    • 9/21が待ち遠しく当然ながら未読ですが、好著連発のソシムのカラフルシリーズ

    • そして目次を見てよ、ちゃんと勉強している人ならわかるはず。「そこを知りたかった」が書いてある。『統計学のための数学入門30講』と差し替えになるかも。期待大!

      目次
      【第1部 線形代数の基礎】
      第1章 ベクトルと内積
       ベクトルはデータ・数値、内積は係数付き和・類似度
      第2章 行列とその積
       行列はデータ・パラメーター・量を表し、変換・関係に使う
      
      【第2部 微分積分の基礎】
      第3章 微分
       微分は変化の倍率・変換である
      第4章 微分の技術
       変化の倍率で理解する微分の諸公式
      第5章 関数の最大・最小
       データ分析のあらゆる場面で活用される基礎問題
      第6章 積分
       関数の値の総和を計算する技術
      
      【第3部 微分積分とデータ分析】
      第7章 数式を読み解くコツ
       しっかりした基礎を構築しておく
      第8章 最適化手法と深層学習
       最適化問題への微分の応用
      第9章 Lagrange の未定乗数法
       制約付き最適化問題への処方箋
      第10章 正規分布とエントロピー
       連続的な確率変数の扱い
      
      【第4部 線形代数とデータ分析】
      第11章 逆行列と対角化
       線形変換を新しい角度から理解するツールたち
      第12章 対称行列の対角化
       行列で関係を表現し、対角化で関係を分解する
      第13章 分散共分散行列と主成分分析
       分散共分散行列の対角化は分散共分散関係の分解
      第14章 特異値分解
       別種の対象の取り扱いとその分解について
      第15章 正準相関分析と特異値分解
       関係の分解による変数群間の関係の把握
      第16章 特異値と深層学習
       勾配消失・爆発とランダム行列の積
      第17章 意味表現空間としての高次元線形空間と内積
       AIを支える高次元線形空間
      
      【第5部 微分積分と線形代数を活用したデータ分析】
      第18章 回帰分析と擬似逆行列
       2種の逆がもたらす代数的理解と幾何的理解
      第19章 多変量正規分布とその積分
       多変数の確率分布の構造と特性
      第20章 生成モデルと変分自由エネルギー
       本来は不可能な学習を可能にした技術
      

ビジネス

  • データサイエンティストにもビジネス、ドメイン知識は必要だよとよく言われるところですね
  • ドメイン知識は個々によると思いますので、別に書いているnote記事業界ごとのAI・データ分析参考書籍をご参照ください

  • ここでは、データ分析は目的じゃなく手段、ビジネスメリットを出すにはどうしたらいいかの本を紹介しています

2.1. ビジネス・テーマ定義の4冊

  • そもそも何を目指しているのの「戦略」
  • PJの進め方や組織のあり方などです
書名 内容
なぜ「戦略」で差がつくのか。
  • 本書は機械学習やデータ分析の本ではありません。ただ、目的と手段を誤った「AIでなんかやれ」もまだまだ多数見受けられます。そもそも我が社、お客様は何をしたいのかを考える必要があるでしょう。
  • そもそもデータ分析が必要なのか、そのデータ分析プロジェクトで何をしたいのか、リソース制約は何か、整理することが求められます。本書は関係者の共通理解を得るための第一歩になると思います。
  • 戦略についてどうこう議論している本は数多あるものの、「戦略」とは何かをきちんと定義しいる本はまず見ないです。みんな「戦略」を定義しないまま好き勝手に言ってませんか。
  • 「戦略」と口にする人ほど、戦略的に捨てた選択肢を、「とは言ってもこの観点もあの観点も必要だやってないのか」と蒸し返します。
  • マーケター向けの本であり、本ブログ著作青木もマーケティング関連の勉強として読みましたがかなりの衝撃を受けました。マーケティングのみでなくおよそビジネスで「戦略」という言葉が出てくる分野には全て通用する話です。
  • 皆簡単に「戦略」という言葉を使い共通理解がないまま破綻していませんか。
  • Amazon紹介ページにある通り、ほとんどの会社が無自覚に「戦略」という言葉を使っていると思います。
    しかし、経営戦略、マーケティング戦略、広告戦略、営業戦略…
    と企業の中では「戦略」という言葉が必要以上に多用されています。定義や意味が曖昧なため、ビジネスの現場で混乱や誤解を招く原因にもなり、実際的に戦略を運用する上では、ほとんど役に立ちません。
    つまり「戦略」は、いまだにかなり曖昧な単語だということです。戦略の考え方のひとつを理解することは、今後の選択や意思決定に対して有効な指針となります。本書は、それぞれの読者が戦略を実践的な思考の道具として体得されることを目指すものです。
  • 本ブログ著者の青木は「戦略においては、限られたリソースのもと目的達成のために何を実施し、何を捨てるか、の『何を捨てる』の共通理解を得ることが一番大事」と本書を理解しています。
仕事ではじめる機械学習 第2版
  • AIのPJ全体について『AI・データ分析プロジェクトのすべて』で知ったあと、現場レベルにより絞った具体の内容として読むといいのではないか。
  • 下記目次で示されるとおり、「仕事で使う」という軸で機械学習に必要な項目を概説している
    1章 機械学習プロジェクトのはじめ方
    2章 機械学習で何ができる?
    3章 学習結果を評価するには
    4章 システムに機械学習を組み込む
    5章 学習のためのリソースを収集する
    6章 継続的トレーニングをするための機械学習基盤
    7章 効果検証:機械学習にもとづいた施策の成果を判断する
    8章 機械学習のモデルを解釈する
    第II部
    9章 Kickstarterの分析、機械学習を使わないという選択肢
    10章 Uplift Modelingによるマーケティング資源の効率化
    11章 バンディットアルゴリズムによる強化学習入門
    12章 オンライン広告における機械学習
最強のデータ分析組織
  • 同じく河本薫氏の本
  • 氏が元大阪ガス時代に苦労して作り上げたデータ分析チームについて
  • これも、何もわかってない人がどこかの記事を聞きかじって茶々入れて時間ばかり食うので、理論武装しておこう。
データ分析失敗事例集: 失敗から学び、成功を手にする
  • 本当に本書に書いてる通りに失敗するよ!「AIは分からないからお前に任せた」という人が、機械学習と深層学習の違いも分からないのに「ディープラーニングなら出来るはずだ!」とか割り込んで来て大変。
  • 失敗しないために、失敗を知っておこう。
  • データ分析PJを多数実践してきた方ならば目次だけで泣けるだろうし、これからの方は次に迫る失敗を乗り越えるために要注意な点が満載
    Part Ⅰ 「えーあい」でなんとかして!
    CASE 1 UIを統一してUXが破綻する 
    CASE 2 誰のための仕事? それが問題だ 
    CASE 3 最先端アピールのための最先端プロジェクト 
    CASE 4 本当に季節性はありますか 
    CASE 5 レコメンドの必要ありますか 
    CASE 6 分析を現場でどう使うか 
    CASE 7 ほとんど故障しない製品の故障予知 
    CASE 8 AIという言葉の曖昧さ 
    CASE 9 そんな目的変数で大丈夫か 
    コラム データサイエンティストとしての生き方 
    Part Ⅱ 翻弄されるデータサイエンティスト
    CASE 10 成功した報告しか聞きたくない 
    CASE 11 ターゲティングの必要性 
    CASE 12 決定木分析は決定木だけではない 
    CASE 13 ドメイン知識の重要性 
    CASE 14 政治的な数字の応酬 
    CASE 15 プロダクトアウトでもドメイン知識は大事 
    CASE 16 スタイルの違いが引き起こした混乱 
    CASE 17 いくら分析したところで、売れないものは売れない 
    コラム データサイエンティストの人事事情 
    Part Ⅲ その失敗を超えてゆけ
    CASE 18 カオス状態のBIレポート 
    CASE 19 用意できたのは集計データのみ。予測精度はどこまで…… 
    CASE 20 取ってびっくり、こんなに使えるデータは少ないのか 
    CASE 21 頑張って予測していたのは…… 
    CASE 22 木を見て森を見ずはキケン 
    CASE 23 総人口の十倍を超えるID数との出会い 
    CASE 24 最終報告が終わってから集計の仕様が決まる 
    CASE 25 機械学習モジュールの寿命 
    コラム 絶対に失敗しないデータ分析

2.2. 前処理・特徴量エンジニアリングの5冊

  • 続いて、データが用意されたとして、機械学習アルゴリズムは結構グルメです。美味しい(分類・回帰等に適した)データでないと臍を曲げてまともな結果を返してくれません
  • データを食べられるようにするにはどうしたら良いかの前処理と、より美味しくするためにはどうしたら良いかの特徴量エンジニアリングは重要です
  • 『サンプルサイズの決め方』は良書ですが、難しく、データで殴る系の機械学習メインならば『入門 サンプルサイズ設計』で確実に基礎をおさえる方が良いと思い、外しました
書名 概要
入門 サンプルサイズ設計
  • new新規追加
  • 本書のまえがきに、『サンプルサイズの決め方』の前段階の入門書の旨の説明があります。
  • Rを用いて下記の説明があります。
  • 1標本・2標本について平均値、割合、感度・特異度の検定
  • 1標本の平均値・割合、2標本の平均値・割合の差の信頼区間
  • シミュレーションによるサンプルサイズ設計
  • 『サンプルサイズの決め方』も良い本ですがやはり難しい面があり、食わず嫌いをするよりも優しい本書せしっかり基礎固めをした方が良いかなと今回差し替えました。
欠測データ処理: Rによる単一代入法と多重代入法
  • Rでの本ですがPythonでの本で適当なものがなく、要点は言語関係ないので取り上げました
  • 欠測値の扱いはこれからどんどん高まるはず。
  • 機械学習アルゴリズムによっては欠測値は特に処理しないでそのまま扱えることも多いけど、そうでない場合もある。そんなとき欠測値は厄介なのでみんな適当に処理しがち。
  • 結構しっかりした統計の本でも「欠測値があるデータは除くこと」、「平均で埋める」などとしていることが多いが、むやみにデータを除くと分散などが歪む、適切な値で埋めないと分散が小さくなる、正しく埋める方法がある
  • ことをRコードを示しながら丁寧に解説している。日本の統計の杜撰さが話題になってますが意図して、せずに関わらずビジネスのデータは欠損が多い。今後非常に重要になってくるはずです。今のうちに学ぼう。
機械学習のための特徴量エンジニアリング
  • 機械学習モデルにそのままデータを投入すればよいわけではなく特徴量のうまい調理方法がありそれは特徴量エンジニアリングと呼ばれる
  • 『前処理大全』『Kaggleで勝つデータ分析の技術』にも一部言及があるが本書は特徴量エンジニアリングに特化した本。
  • 数値データの対数化等の加工、自然言語処理でのBoW、カテゴリデータの扱い、次元削減、k-means、深層学習での画像特徴量の抽出など基本だが重要な概念をコード例付きで詳しく解説している。
事例で学ぶ特徴量エンジニアリング
  • new新規追加
  • 特徴量エンジニアリングの基礎のおさらいと、COVID-19データによる欠損値補完など、バイアス・公平性、自然言語処理の特徴量、画像処理、時系列データ、特徴量ストアまでを事例に基づいて紹介。
  • ほら、特徴量エンジニアリングって理屈の基礎的なところは、ふむふむ、となりますがいざ実際のテーマ・データを対峙すると「あれ、どうすんだっけ?」ってなりますよね。そこをつなぐ・うめるような本かな。
  • 翻訳者さんが本書の解説しているQiita記事改めて「特徴量エンジニアリング」とは何か?もわかりやすいからこれだけでも読んで。
Kaggleで勝つデータ分析の技術
  • Kaggle本ですが、Kaggleのためであれば新しい本が出ており、本書は古くなっています。本書はKaggle向けだけではなくデータ分析に必要な特徴量エンジニアリングを含めて基本的なノウハウを網羅しているので、あえてこちらに入れました。
  • 爆売れしているらしい。そら売れるだろう。キャッチーな「Kaggleで勝つ」に加えて内容がいいもの。
  • Kaggle名人(Masterなど)がドヤ顔せず丁寧に手の内を明かしてくれている。
  • データの前処理、アルゴリズム選定、パラメータ設定等あるいみすべて。
  • Kaggleで勝つための小細工もあるが、Kaggleなんてする気ねぇという気質の分析者にも実務で得るところ多いはず。
  • いやーこんなのが日本語で数千円で読めるなんてすごい時代になったなー昔なんて洋書か大部な数式だらけの本しかなかったんだぜ。

2.3. 分析アルゴリズム

2.3.1. 統計学の3冊

  • 統計学が入門で機械学習がその応用としているような解説をまま見ますが違います
  • TJOさんの記事「統計学と機械学習の違い」はどう論じたら良いのかに詳しいですが、

    統計学はデータを「説明」することにより重きを置く
    (中略)
    機械学習はデータから「予測」することにより重きを置く
    (中略)
    とは言え、統計学と機械学習の違いは基本的にはそれほど大きくないし互いに重なる部分だらけ

  • ということで機械学習の前提知識や基礎という意味ではなく、別の面から見る、という意味で統計学を身につけるものかと思います
書名 概要
データ分析に必須の知識・考え方 統計学入門
  • 必読。私は苦労して学んだのに今の人は本書から入れてずるいって感じ
  • 統計学とデータ分析はかなりかぶるのですが、少ないデータをどう扱うかの理論武装をしている面がある統計学とデータ量で力任せな機械学習と味方が異なる面があります。
  • なので統計学の本で機械学習にはあまり要らないなーという項目もあるのですが、本書はサブタイトルに「データ分析に必須の知識・考え方」とあり、必要な点に絞りかつ統計学の入門書ではあまり扱わない項目(統計モデリング、数理モデリング、機械学習の基礎等)も含まれています
    • 統計分析の目的は何ですか?
    • p値の意味を理解していますか?
    • 相関と因果を区別できていますか?
    • その結果に再現性がありますか?
  • 数式は最小限でイラストを多用して本質について解説してくれています。
統計学入門 (基礎統計学)いわゆる「赤本」
  • 本書が理論理解入門の定番とされてますが、やや難しいです。ただ、分からない概念が出てきたときに本書に戻ると解説されていることが多いです。
  • ググれば分かりますし、統計学入門なら別の本がたくさんありますが、「これが共通言語」という意味では手元に置いておいたほうがよいと思います。
プログラミングのための確率統計
  • 確率・統計の「意味」が分かる。題名の「プログラミング」はほぼ関係ない。簡単にだが「カルマンフィルタ」なども紹介されている。
  • 確率は面積だ!

next break

2.3.2. 機械学習アルゴリズム-1の5冊

  • みんな大好きデータ分析のアルゴリズムにやっと辿り着きました
  • ここで「数学がー」と騒がれるのですが、私は断然コード写経派です。研究者ならば数式をがっつり理解しないといけませんが、データ分析の技術者であればまずはコード写経でなれることが王道だし、早道と思います
  • もちろん理論を知っている方が応用が効きますが、コード写経で、このデータをこのライブラリでこのハイパーパラメータで扱うとこういう結果が出るのだな、と知った上での方が数式の意味も入りやすいです
    • もちろん理論書の式展開や章末問題をきちんと解くということまですれば差別化につながりますが
書名 概要
見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑
  • 「このくらいわかってるよ」という方もいらっしゃると思いますが、LSA, NMF, LDA, LLEとかちゃんと説明できますか。
  • 『データ分析のための数理モデル入門』、『分析者のためのデータ解釈学入門』なども出たので図解でわかりやすい唯一の本、という価値は薄れたかもしれないですけど、基本概念を図解でどう示したらいいか、という観点なら本書が一番かと。提案書やレポートでアルゴリズムなどを顧客に説明しなけらばならない時など参考になると思います。
本質を捉えたデータ分析のための 分析モデル入門
  • 機械学習アルゴリズムを知るには数学が必要ですが難しく、数式の海に溺れがちです
  • 回帰分析、ロジスティック回帰など基礎的なところから、教師あり学習、教師なし学習、強化学習、深層学習、画像処理、自然言語処理など非常に幅広く、その本質を数式とともにイラストで分かりやすく示してくれています。
Pytyhonで始める教師なし学習
  • 教師あり学習が主で、教師なし学習は添え物的に扱われがちですが、実際のビジネスにおいてはデータがないことがかなりある。
  • 次元削減、異常検出、クラスタリングから深層学習を用いた手法、時系列クラスタリングまで、教師なし学習の代表的な手法をコード付きで丁寧に解説している。
Optunaによるブラックボックス最適化
  • 機械学習アルゴリズムのハイパーパラメーターの最適化を行うOptunaについて開発者らの解説本
  • 機械学習アルゴリズム本の一節に簡単に取り上げられることが多いですが1冊丸ごとでの解説本。
パターン認識と機械学習 上
パターン認識と機械学習 下
いわゆるPRML
  • ベイズの立場から機械学習アルゴリズムを解説した定番書
  • これも類書がたくさん出てきているので別に良い本があるかも(ごめん、このレベルの本はこれしか読んでないので。
  • でもむずいので手引きとして前提知識を解説した 『パターン認識と機械学習の学習 普及版』 なんてのもあるよ

2.3.3. 機械学習アルゴリズム-2(深層学習)の4冊

  • ここ更新ないのすまん「生成AI」を別立てにして新しい本を追加したので許してくだされ
    • 何でもかんでもはできないので、深層学習については本記事著者青木は最低限だけで避けてきたのだけれどLLMの大波で改めて勉強している
  • 深層学習はあまり実装したことないので実装系の本が入ってないのはご容赦
    • 画像処理、自然言語処理の項にて
書名 概要
ディープラーニングを支える技術
  • 類書がたくさんありますが難しいか端折っていて要点がわからないか
  • 本書は第一人者のPFN岡野原氏の著者であり、要点を外さない解説
ディープラーニングを支える技術2
  • 本書は前著に続き「生成モデル」「深層強化学習」について解説している
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
  • ライブラリを用いたコーディング事例ではなく、ディープニューラルネットワーク自体をほぼスクラッチで書こうという本
  • ディープラーニングよりもその基礎のニューラルネットワークの解説が中心。
  • 数式の本が難しく、フレームワークでなぞるだけでは物足りない方が、原理をしっかり理解したい場合の導入としてちょうどよい本と思う。
深層学習 改訂第2版

2.3.4. 因果推論・因果探索の6冊

  • 相関があっても因果がないと良く言われますがならば因果を見出すには?についてもっと必要とされると思うのですがなかなか来ないなと思っていたら、ここ1-2年で類書がどかんと増えました。
  • ビジネスでデータ分析をするのであれば単に予測するだけではなく売上増やコストダウンを目指すので、その結果を導き出すための原因探索がもっともっと求められますよ!
  • 『A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは』はマーケティングの方に入れていたのですが、こちらに移動しました。
  • ということでより深くは別に記事を書いてますが基礎となる本を示します
書名 概要
「原因と結果」の経済学―――データから真実を見抜く思考法
  • まずはぜひこの1冊。
  • 前提知識不要で、相関と因果など間違えやすいところが身につく。データ分析、政策等のかなりの専門家でもかなり間違っている人がいる。因果推論を扱うならまずは本書の内容を頭に叩き込む事が一番重要だと思う。
  • 因果推論の基本の下記概念を数式なしで一通り知ることができます。
    • ランダム化比較実験(RCT)
    • 自然実験
    • 差の差分析
    • 操作変数法
    • 回帰不連続デザイン
    • マッチング法(傾向スコア)
    • 回帰分析
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
  • new新規追加
  • 因果推論・因果探索の決定版。本職で因果推論や因果探索を行うには必ずしも完璧ではないですが、エンジニアレベルでこの分野を知りたいというなら必要十分ではないでしょうか。
  • Pearl派の構造的因果モデル、Rubin派の潜在反応モデル。そして因果推論と因果探索。また、最新の機械学習を用いた分析手法まで1冊に偏りなく盛り込まれています。しかもPythonコード例つき。
  • ミックステープが決定版と思いましたが、因果探索まで扱っていること、機械学習手法も扱っていることもあり、因果推論・因果探索全般を知る1冊としては本書、因果推論の従来手法をもう少し深くならミックステープという使い分けでしょうか。
因果推論入門〜ミックステープ
  • 本書の特徴は
  • ルービン派、パール派に偏らず理論を網羅的に紹介していること。数式もありますがそれで押すのではなくコード例で理解を促していること。
  • 理論の解説がメインですがコード例が豊富。書籍内ではRコードですがサポートサイトにStataやPythonのコード例あり。
  • また本文内に類書との差別化として下記があり、本書を読めば因果推論の主だった手法を網羅できると言っているようです。
  • Imbens and Rubin (2015)(青木注『インベンス・ルービン 統計的因果推論』)は潜在アウトカムモデル、実験デザイン、マッチングと操作変数法については解説していますが、非巡回有向グラフ(DAG)、回帰不連続デザイン、パネルデータ、合成コントロール方については扱っていません。一方、Morgan and Winship (2014)は、DAG、潜在アウトカムモデル、操作変数法について解説していますが、回帰不連続デザイン、とパネルデータについては軽くしかふれられていませんし、Athey and Imbens (2017b)が過去15年間で因果推論における重要な革新と呼んだ合成コントロール法についても扱っていません。Angrist and Picheke (2009)は私のニーズにとても近いですが、私が極めて有用と考えている合成コントロール法やグラフィカルモデルについてふれられていません。
  • 本書まで学べば余程深く求められない限りひと段落マスターと言って良いのではないかと思います(本式にはインベンス・ルービンが必要だろうけれど
A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは
  • 「マーケティング」からカテゴリ移動。
  • Amazon解説文のままですが、まさに下記の通りで必要十分な本かなと思います
    経営層やリーダー、データサイエンティスト、エンジニア、アナリスト、プロダクトマネージャーなど、企業の全関係者を対象として、その概念から実験を実施するためのプロセス、よくある落とし穴、オンライン実験をスケールさせるために必要なことまで、A/Bテスト、コントロール実験の詳細を解説する。
    Google, Amazon, Microsoft, LinkedInなどで実際に実践された経験から得られた教訓や落とし穴などがふんだんに盛り込まれており、データ駆動型の文化の確立、科学的な意思決定に必要なスキルを獲得できる。
反実仮想機械学習〜機械学習と因果推論の融合技術の理論と実践
  • new新規追加
  • 因果推論で重要な「存在しない『反事実』をどう扱うか」について、データから「反実仮想」を作り出して比較しようという試み。
  • 因果推論の傾向スコアや強化学習などを駆使して「反事実」をどう作り出すかに挑む。
  • アカデミアの研究だけではなくて、ネット企業では実務に普通に使われているようです。
  • データが溢れてきた今日では、この分野が急速に伸びると思うので、やや番外感もありますが先行投資的にリストアップしました。
因果推論の科学
  • なぜ因果ということを考える必要があるのかなど歴史を通じて現状までを解説した本。
  • ただ、「因果推論の入門に良い」という書評がありますが、この本をいきなり読んで理解できるのだろうか疑問。ある程度学んだ後に戻ってきて読むと興味深く読めると思う。

2.3.5 異常検知の2冊

  • 製造業を中心に異常検知のテーマは結構ありますが、通常の機械学習の本では扱ってないことが多いです。「ホテリングのT2」とか、製造業の方は統計手法に詳しい方が多いので、こっちが知らないということを避けるために基本的なことは知っておこう
  • 『異常検知と変化検知』はここだけちょっと理論書が深すぎるかと思うので100冊からは削除しました(もちろん異常検知をするなら必読と思うよ)
書名 概要
Pythonではじめる異常検知入門 ―基礎から実践まで―
  • ホテリングT2、k近傍法、One-Class SVMなど異常検知の基礎理論から、時系列異常検知までPythonコード例で学べます
入門 機械学習による異常検知―Rによる実践ガイド
  • Rの本ですが解説が詳しいので挙げておきます。
  • 異常検知の第一人者である井出先生の定番本。類書が少なく、前著が出るまでは異常検知が必要ならばまず手に取る1冊。
  • 「Rによる実践ガイド」と副題があり、Rによるコード例もありますが、基本は理論の解説。ただ厳密な定義定理スタイルではなく概念の説明が主。
  • 井出先生の サポートページ の内容紹介が詳しくて参考になる。

2.3.6 ネットワーク分析の1冊

  • やっとPythonでのネットワーク分析本も何冊か出てきました。
  • 下記2冊は削除しました。
    • 『ネットワーク分析 第2版』はRでの本。
    • 『ネットワーク科学: ひと・もの・ことの関係性をデータから解き明かす新しいアプローチ』はネットワーク分析をするならば読んだ方がいいと思いますが、100冊には濃すぎる。
書名 概要
ネットワーク科学入門:
Pythonで学ぶデータ分析とモデリング

  • new
  • この分野は理論書かRによる実装本が充実していて、Pythonによる本はすくなかったのです。やっと分野を俯瞰しつつPythonで学べる本が出ました。

2.3.7. スパースモデリングの2冊

  • 機械学習の本に少しだけ記載がありますが、しっかり学ぶのであれば下記の本など。
  • 理論書や演習書などあり、昨年度は少し紹介しましたが未読のままなので削除しました。
書名 概要
ITエンジニアのためのスパースモデリング入門
  • スパースモデリングの代表的なアルゴリズムであるLassoについてPythonコード付きで学べます
スパース推定法による統計モデリング
  • コード例がRなものの、前著はどちらかというと動かしてみる重視ですが、本書はより理論について解説があり、理解が深まるかと思います

2.3.8. 強化学習の2冊

  • これも実案件経験がほぼないです。案件が来た時の前捌きとして読んでおります。
  • これだけでは実案件に対応できないのはわかりますが、最低限の知識として。
  • ここも類書多数ありますが、定評ある本なども残念ながら未読なものは未掲載。Sutton本も初版読んだのですが、難しくて理解できず、外しています。その他多数読みましたが最低限間違いなさそうという、読んだものの中で良さそうなもののみに絞っております。
書名 概要
機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで
  • 本記事著者ときは初版を読んだが、初版が出てまもなく改版が出ている。
  • Pythonコード付きで強化学習の基本からDQNなど主要なアルゴリズムを学べる。Pythonを知っており、ある程度機械学習などをやったことがある人ならば最初の1冊にいいかも。
  • 著者によるサポートページicoxfog417/baby-steps-of-rl-jaが充実している。
ゼロから作るDeep Learning ❹ ―強化学習編
  • new新規追加
  • ご存知「ゼロから作るDeep Learning」シリーズの第4弾。このシリーズは間違い無いですね。

2.3.9. ベイズ統計・ベイズ機械学習の4冊

  • この分野も類書が増えてきましたね。昔はRによる『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』か超むずの本しかなかったのですが。
  • 理論が作りにくい分野でデータが大量に得られるようになったからでしょうか。
  • 実務で直接(アルゴリズム内部では広い分野で使われてますね)ほとんど扱ったことがないのですが、最低限の知識として。
  • 正直本記事著者青木はベイズ統計・ベイズ機械学習あたりが「しっくり」まだ来ていません。なんだろうこの感じ。今後もひたすら読んでいきます。
書名 概要
Pythonでスラスラわかる ベイズ推論「超」入門
  • new
  • おそらく本書が一番「入門」なのでは。タイトルに「『超』入門」とあるのがベイズ推論の難しさを物語っているのかな。本書で救われる方も多いはず。
Pythonで動かして学ぶ! あたらしいベイズ統計の教科書
  • データ解析のための統計モデリング入門』(みどり本)が有名ですがこの本はR系なのでやめました
  • ベイズ統計の基礎から、MCMCを用いたベイズ推計、一般化線形モデルの基本まで、PyMC3ライブラリを用いて実装しながら学べます
ゼロからできるMCMC マルコフ連鎖モンテカルロ法の実践的入門
  • new
  • c言語実装だけどな(これをPythonで書き直したりしたら実力つくのだろうな←自分に言っているもちまだやっていない)
  • 習うより慣れろ派なので新たに追加MCMCに特化して解説
Pythonではじめるベイズ機械学習入門
  • 前記書よりより深く、ベイジアンモデリングやベイジアンニューラルネットワークまでを学びます

2.3.10. 評価指標・XAIの4冊

  • 機械学習モデルの評価指標はLogLossが一般的だけれど、一般の方には伝わらない。一般の方には正解率が伝わりやすいですがTrue/Negativeが偏っている時や多群の時は微妙。テーマやユーザーの方が何を求めているかによって評価指標の良し悪しを見極めて適用する必要がある
  • 機械学習はブラックボックスと言われてきましたがある程度まで中身がわかるようになってきました。XAIという呪文みたいな名前ですが、機械学習の説明性はビジネス用途のデータ分析では重要と思います。
  • 『機械学習を解釈する技術』はRでの実装なので、(すみません誤りPythonメインで付録でRでの実装もありです)類書も増えたところで削除。
書名 概要
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
  • 評価指標については機械学習解説本の中で触れられてはいましたが、その理論の解説がメインであり、どうビジネスのKPIとつなげるか等の解説は手薄だったと思います。
  • Amazon紹介ページにあるように、本書ではデータサイエンスの空間とビジネスの空間での「指標」が異なることを意識し、それらの「指標」の特徴をしっかり把握した上で、どうつないでいくか、を解説してくれています。
  • 「評価指標でXXXという最高のスコアが出た!」と喜び勇んで、機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが、ビジネス上のKPIと相関が高い評価指標を選んでいなかったために、KPIの推移を見てみると大した変化がありませんでした。
    (中略)
    このような状況が起きてしまう背景にはさまざまな原因が考えられますが、あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。
    (中略)
    本書はこれらの疑問に答えるため、機械学習の良し悪しを決める評価指標を軸に、解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか、その原理を解説していきます。この原理が普遍的なものであれば、ビジネスがどんなものであっても応用できると考えることができます。
XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?
  • AIの説明性について、ネット記事もお客様とのやりとりの中でも話題に挙がることが増えた。
  • 大極的説明、局所説明などの考え方の整理から、LIME, SHAP, Permutation Importance, Partial Dependence Plot, Tree Surrogate, CAM/Grad-CAM, Integrated Gradientsなどの具体的なアルゴリズムの説明、実装例及びそれぞれの得手不得手などが詳しい。
  • Kaggleなどのコンペでスコア上位を目指すのではなく、実務で機械学習を用い内容の説明が求められるならば必須ではないか。
実践XAI[説明可能なAI] 機械学習の予測を説明するためのPythonコーディング
  • 概念の整理は『XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?』の方がわかりやすいが、本書は、自然言語や、画像、時系列など幅広く扱っている
解釈可能なAI 機械学習モデルの解釈手法を実践的に理解する (Compass Booksシリーズ)
  • new新規追加
  • 類書では薄目であった「公平性とバイアス」の解釈についても新たに追加されています。

2.4. データ可視化の6冊

  • 基礎集計のための可視化と、分析結果を共有するための可視化があるかと思います。ここでは特に分けずにリストしています。
  • データ構造、分析内容が複雑となってきており、ユーザーへの説明はもちろん分析者自身もその結果を共有するのに苦労します。可視化は今後ますます重要になってくると思います。
  • その他関連書を データ可視化の本10冊 にも書いております ←これも更新しなきゃだごめん

書名 概要
指標・特徴量の設計から始める データ可視化学入門
  • new新規追加
  • 他の本は、可視化までのデータ集計はすでにあって、「どう表現すると読み手に伝わるか」がメインなのですが、本書は「そのデータの特徴を表すのにはどのような加工、まとめ方があるか」の方にメインを置いているんですね、そこがいい。
  • つまりデータ可視化だけではなく、特徴量エンジニアリングはどうしたら機械学習に適したデータ加工ができるかですが、そのなんていうんだろう、可視化エンジニアリングともいうべき内容なんですよ。
  • 数量を把握する、メカニズムをとらえる、多変数をとらえる、データの分布をとらえる、関係性をとらえる、パターンをとらえる、の観点でノウハウを教えてくれます。
  • 『データ視覚化のデザイン』とどちらを10冊に入れようか迷ったのですが、『データ視覚化のデザイン』は万人に必須、本書はどちらかというとデータ分析するならば必須という感じですかね。
フィナンシャルタイムズ式 図解の技術
  • フィナンシャルタイムズの編集者が図解を9カテゴリ74図に分け、丁寧に解説しています。
  • グラフはなんとなく描くものではなく、何を示したいかにより使い分けるということです
  • 74図中12図ですがまだ、 図解の言語をすべてPythonで実装例を作成する目論見 を公開しています。
DataStory: 人を動かすストーリーテリング
  • 精度が良いモデルができてもビジネス展開できなければ意味がない。
  • 上司や現場の担当に「RMSEが○○で……」では伝わらず分かりやすくストーリー立てた可視化による説明が必要となる。
  • 可視化のライブラリ解説や、スライド作成等の本はありますがAmazon紹介文にあるように、下記のような内容の本は今までほとんどなかったと思います。
    「共感」というレンズを通してデータを説明すること
    データをストーリーにして相手の行動を促す方法
    上司や不特定多数の人に承認される提案書のつくりかた
    グラフの所見をわかりやすく書き、注釈を付ける方法
    スライドの構成とレイアウトについてのコツ
    データに命を吹き込み、記憶に残るものにして相手の行動を促す方法
ハーバード・ビジネス・レビュー流 データビジュアライゼーション
  • 前著『フィナンシャルタイムズ式 図解の技術』とコンセプトは被ります
  • フィナンシャルタイムズとこちらはハーバード・ビジネス・レビューのノウハウの違い
  • どちらもビジネス系の複雑なデータをどうわかりやすく表現するかと考え抜いている専門家のノウハウなので有益ですが強いてあげると、前者は「図解の言語」としてシステマティックに分類を、本書はDataStoryと同じくどういうストーリーで表現するかに重きを置いてますが、こだわるならばどちらも読んだ方が良いと思います
  • 直接この本についてではにですが同じチートシートをPython/matplotlibで実装している記事がありましたケース別データの可視化パターンとpythonによる実装
データ分析者のためのPythonデータビジュアライゼーション入門
  • 棒グラフ、ヒストグラム、散布図など代表的なものから地図情報、ワードクラウド、インフォグラフィックスの触りまで、Pythonによるコード例付きで分かりやすいです。Pythonでデータ可視化をするならばまず手に取りたい1冊です。
ビジネスダッシュボード 設計・実装ガイドブック 成果を生み出すデータと分析のデザイン
  • CDP(カスタマーデータプラットフォーム)の第一人者トレジャーデータの専門家がダッシュボードについて解説した本
  • トレジャーデータのツールに依ることなく一般論として語られているのでツール関係なくノウハウを学べます

2.5. 分野固有のデータ

2.5.1. 自然言語処理の6冊

書名 概要
Pythonではじめるテキストアナリティクス入門
  • いきなりChatGPTを操りたくなると思いますが、まずは基本の形態素解析やTF-IDFなどの頻度分析から触れるべきだと思う
  • 本書は自然言語取扱の基礎から、口コミを利用した観光地の分析、有価証券報告書を用いた日経平均予想、Twitter・2ちゃんねるデータによる分析などで基礎を身につけることができます
実践 自然言語処理 ―実世界NLPアプリケーション開発のベストプラクティス
  • 技術の解説・コード例ということではなく現実の問題への適用集
  • テキスト分類、情報抽出、チャットボット、情報検索、トピックモデル、要約、推薦システム、機械翻訳、質問応答システム
  • SNS、Eコマース、医療・金融・法律への適用事例
  • 日本語版のみ巻末に日本語自然言語処理ライブラリSpaCyの解説記事がある。
  • 本書の公式サイト https://www.practicalnlp.ai/
  • 本書のコード例ノートブック Practical Natural Language Processing
  • ライブラリとしてTransformersなどを用いている
自然言語処理の教科書
  • new新規追加
  • 前書きに
    本書は開発に関するハンドブックになることを目指しているので、研究に興味があるという人は、放送大学の教科書『自然言語処理〔三訂版〕』(放送大学教育振興会, 2023)または『IT Text 自然言語処理の基礎』(オーム社, 2022)をお読みください。
    とあり、まさにエンジニアの入門用の教科書ですね。
  • 数式は最小限で従来の自然言語処理からTransformerや大規模言語モデル、そしてコーパスなどの話題を広く扱っています。
  • 前書きにある通りこの本の後に次の『IT Text 自然言語処理の基礎』を読むと良さそう。
IT Text 自然言語処理の基礎
  • がち
  • 大規模言語モデルの流行でプロンプトがどうしたこうしたと浮ついた本がたくさん出ていますが、それだけでは解決しないし、すぐ流行り廃りはあるし
  • でもインターネットの移ろいがあってもTCP/IPが全く揺るがないように根っこの技術を学ぼうじゃないか
    第1章 自然言語処理の概要
    第2章 自然言語処理のための機械学習の基礎
    第3章 単語ベクトル表現
    第4章 系列に対するニューラルネットワーク
    第5章 言語モデル・系列変換モデル
    第6章 Transformer
    第7章 事前学習済みモデルと転移学習
    第8章 系列ラベリング
    第9章 構文解析
    第10章 意味解析
    第11章 応用タスク・まとめ
9/4に第二版が出るらしい大規模言語モデル入門Ⅱ〜生成型LLMの実装と評価


大規模言語モデル入門
  • transformersライブラリを用いてコーディングしながら大規模言語モデルの理論と実装の両方を体験できる嬉しい本
  • 『IT Text 自然言語処理の基礎』下記のような目次で、大規模言語モデルを一通り学べる
    第1章はじめに(transformersを使って自然言語処理を解いてみよう)
    第2章 Transformer
    第3章 大規模言語モデルの基礎
    第4章大規模言語モデルの進展
    第5章 大規模言語モデルのファインチューニング
    第6章 固有表現認識
    第7章 要約生成
    第8章 文埋め込み
    第9章 質問応答
大規模言語モデルは新たな知能か ChatGPTが変えた世界
  • 大規模言語モデルがこんな流行るとは!
  • 雨後の筍のように便乗本が出ていますがほとんどは消えます。この記事を読むような方は本質を
  • 難しいのですが、PFNの岡野原さんが分かりやすい解説書を出してくれました

2.5.2. 生成AIの6冊

  • 大規模言語モデルを中心としながらも画像や音声も含めた生成AIについてこのカテゴリにまとめました。
  • LangChain系も何冊か読みましたがしっくり理解できてないので掲載しておりません。
  • 画像生成系も作曲系も同じく何冊か読みましたが、100冊に来ない趣味レベルで読んでいるだけかなと今回は見送りです。
書名 概要
面倒なことはChatGPTにやらせよう
  • new新規追加
  • 2024-01発売でもう「古株」ですね!
  • 類書がたくさん出ていますが、「ChatGPTになんらか作業をさせる」という意味では本書が一番いいかなと思います。
  • その後たくさん出た類書は「編集者に尻を叩かれながら薄い内容を盛って感」があるのですけれど本書は、「痒い所に手が届く感」というか「吟味したノウハウを取捨選択している感」があるんですよね。
  • 著者さんがKaggle本の「うすい本」など、技術出版界隈のせいもあるのかな。
ChatGPTを使い尽くす! 深津式プロンプト読本
AI時代の質問力 プロンプトリテラシー 「問い」と「指示」が生成AIの可能性を最大限に引き出す
  • new新規追加
  • ペルソナパターンとか、Chain-of-Thoughtパターン、ReACTパターンとか類書のTips集のような章見出しが並んではいるのですが、単なるTips集ではありません。
  • わざわざ「リテラシー」と題しているだけはあり、プロンプトのTips的はものはほとんどありません。
  • プロンプトを考える時のOSかなと思うのですけれど。
  • 繰り返しですが、
    • 作業させるなら『面倒なことはChatGPTにやらせよう』
    • テキストのやり取りなら『深津式プロンプト』
    • 土台となる考え方なら『プロンプトリテラシー』
    というような立ち位置かなと思います。
実践 生成AIの教科書 ――実績豊富な活用事例とノウハウで学ぶ
  • new新規追加
  • 日立さんにより企業に生成AIを導入するにはのノウハウと注意点など。
  • 類書は単に機能紹介がメインですけれど、企業で使うには組織をどうするか倫理やセキュリティはとたくさん気になりますがそこらへんまでカバーしています。
  • これらもネット記事が氾濫しているので、そちらを見るのもアリですが、日立さんがこの生成AIの時代に自社名を全面に出している本とのことで、気概見たいのが感じられて整理に良いかと。
生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする
  • update 新しい版。
  • ごめん初版は読んだが、この新しい版はまだ読み中でも間違いないでしょう
  • 今最も熱い分野ですね。初版に比べ最新動向を盛り込みつつ、マルチモーダルの強化、そして「世界モデル」についても触れています。

2.5.3. 時系列分析の7冊

  • 時系列分析について私の経験が一番多いので多めになちゃいました。
  • 需要予測をはじめどの業界でも出てくるデータだと思います。ただ、見せかけの回帰など時系列データならではの通常の回帰とは異なる点が多々あり、気をつけるためにもしっかりと学びたいところです
  • その他関連書は 【決定版】需要予測・市況予測のための時系列分析の本リスト ←これも更新しなきゃだ

書名 概要
Pythonによる時系列分析
  • 下記本が最初の1冊と思っていましたが、本書の方が網羅性、実践例もあり適切か
  • 時系列データの特徴、時系列分析手法の概要、そして異常検知、未来予測等のビジネス事例が7つと最初の1冊として十分な内容をPythonコードで試しながら学べる。
時系列解析: 自己回帰型モデル・状態空間モデル・異常検知(Advanced Python)
  • 上記本が出たので優先度は下がったかも。でも状態空間モデルは上記本にないのでまだ読む価値あり
  • 時系列分析で必要な知識の概要がほぼ網羅されており分野を俯瞰出来、Pythonで試しながら読み進められる。
    • 時系列データの特徴
    • ARIMA、VAR(GARCHはなし)をはじめとする時系列データの統計モデル
    • それを拡張している状態空間モデル
    • 状態空間モデルのエンジンとしてのベイズ推論(MCMCはなし)
    • 時系列異常検知
Python時系列分析クックブック I―前処理―
  • new新規追加
  • 時系列データの前処理の本。
  • 他のデータと違い、日時の扱いが特殊、欠損補完や外れ値対応も独特なところがあり、それらについて37のレシピでPythonコード例を丁寧に紹介。
Python時系列分析クックブック II―モデル・機械学習―
  • new新規追加
  • I巻に続いて分析のレシピ。
  • 伝統的なARIMA、VARや機械学習、状態空間モデルを用いた手法まで37のレシピでPythonコード例を丁寧に紹介。
実践 時系列解析
  • RとPythonを縦横無尽に使うなかなか無茶な本。だけど統計的な時はRが強いし機械学習ならばPythonが強く、時系列分析は両方の面があるので、無理に1言語にすることもないしな。
  • 時系列の前処理・EDA、ARIMAなどの時系列モデル、状態空間モデル、深層学習による時系列解析、ヘルスケア・金融・政府統計などの応用面など多岐にわたる解説とコード例がある。
  • 基礎を学ぶというよりも、他書である程度学んだ人がネタ探し、弱点補強的に読むと良いのではないかと思う。
経済・ファイナンスデータの計量時系列分析 いわゆる沖本本
  • 「沖本本」として定評がある教科書(私は読んでいないが岩波書店の『時系列解析入門』も定評があるが品切れ。あるいはその改訂版『Rによる 時系列モデリング入門』でも良いかもしれない)。
  • 基礎概念/ARMA過程/予測/VARモデル/単位根過程/見せかけの回帰と共和分/GARCHモデル/状態変化を伴うモデル、と重要な概念についての解説があります。状態空間モデルはないですがそれ以外の主だったところは全て押さえていると思います。
  • 難しいけれど章末問題(数理的な、コードを書く的な両方)を解くことで理解が深まる。というか昔はこれくらいしかまともな本がなかったので。やや難しいので、数学が苦手な方は他のコード例が豊富な本で慣れながら本書を読むといいと思う。
  • Rのみですが、章末問題を解いたコード例をQiitaに上げております 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第1章時系列分析の基礎概念-
点過程の時系列解析
  • 地味。いわゆる時系列解析に似てそうで全然似ていない考え方が必要となる。データ分析本の推奨でまず出てこない。
  • だけどですよ、出版社の本書紹介から引用すると
    点過程の時系列とは,データがある着目するイベントの発生時刻の集合として特徴付けられるようなタイプの時系列である。実世界の様々な現象が点過程として表現することができ,例えば自然現象としては,地震,神経細胞のスパイク発火,遺伝子発現などが考えられる。さらに近年,人間の社会行動に関する様々な大規模データが蓄積され,それが利用可能になってきたことを背景として,金融取引,保険事故,人々のコミュニケーション,SNS上でのユーザーの活動等のデータを解析するために,点過程が用いられることが増えており,点過程の応用範囲は急速に拡大している。
  • そう、金融取引やSNSデータなど今後引き合いがめっちゃ増えるのに誰も注目しておらず和書類書もほとんどない。これは狙い目です。
  • 残念ながら100冊からは落としましたがイベント時系列解析入門ウェブデータの機械学習なども参考になるかと思います
  • おまけ
    • 『Pythonによる時系列予測 (Compass Data Science) 』
      • 評判良さそうだが単に読んでいない

2.5.4. 画像処理の1冊

  • 『PyTorch実践入門 ~ ディープラーニングの基礎から実装へ』も古くなり、私自身あまり画像を取り扱ったことがなイノで削除。類書が多数出ているのでそちらをご参照なさってくさい。
  • ただ『ディジタル画像処理 改訂第二版』はディジタル画像を深く知るための情報が満載なので、必読と思います。
書名 概要
ディジタル画像処理 改訂第二版
  • 本書すげぇ。「画像処理エンジニア検定エキスパート対応」という資格用テキストらしいのですが、この手の本にありがちな、大家の名前+弟子が走り書きで内容がない、ではなく、ディジタル画像についてありとあらゆる(と素人の私は思った)内容が掲載されている。
  • カメラレンズの構造やRGB、画像変換や行列、機械学習まで。画像データは一切扱わない、という人ならともかく、そうでない人ならば読んでおくと差がつくでしょう。

2.5.5. 地理空間の1冊

  • 例えば緯度経度は単なる数値として扱えてしまうけれど、国レベルのデータであればx-y平面ではなく球面(地球規模ならば平たく潰れた球)であることを計算に加味する必要がある
  • 狭い範囲でも近接した地域の効果により空間ラグなどを考慮する必要があり、地理空間は独特の扱いが必要
  • この分野はRの本が多いですが徐々にPython本も出てきている模様。
  • 『空間統計学 自然科学から人文社会科学まで』も重要な本ですが、100冊からは削除。
書名 概要
Pythonによる地理空間データ分析
  • Pythonではまだ類書が少なく貴重な1冊
  • 豊富なPythonコード例にて地理空間データの取り扱いについて一通り実行しながら学べます
    • QGIS(地理情報データを扱うシステムGISのオープンソース版
    • GoogleEarthEngine
    • OpenStreetMap(GoogleEarthは商用利用で要ライセンスなので、商用利用もフリーなツール)
    • GeoPandas(Pandasの地理空間版)

2.6. 機械学習周辺の手法4冊(実験計画法の1冊、数理最適化の2冊、意思決定の数理の1冊)

  • データ分析の範囲というかとするとちょと微妙というか範囲外ではありますが、持ち込まれた分析テーマが機械学習なのか実験計画法が適しているのか、数理最適化なのか、その他の数理手法なのかは最低限、見極めた方が良いと思うので、最低限のところを
  • 実験計画法
    • Wikipediaによると下記の通りで、データがあり機械学習アルゴリズムでということではなく、色々な条件があり最適解を……、などというときに効果的かと思います。

      実験計画法は、効率のよい実験方法を設計し、結果を適切に解析することを目的とする統計学の応用分野である。

    • AIで解決したい、と要望が来てもルールベースだったり実験計画法で解くべきテーマというのがあります。それを見極めるためにも基礎的なところは押さえておきたいです。
  • 数理最適化
    • 機械学習は誤差の最小化の意味での最適化ですが、売り上げ最大化とか、コスト最小化とか機械学習を用いずに最適化を求める分野がある。きちんと押さえておきたい
  • 意思決定の数理
    • ビジネスは意思決定の場なのだから機械学習をビジネス適用するのであれば意思決定に役立つテーマ設定が必要という話を冒頭でしました
    • 逆にいうと意思決定に役立てば機械学習でなくともよい&機械学習ではできず他の数理手法の方が適している場合がある
    • 数理最適化もそうなのだがそれよりもっと広く、微分方程式モデル、ゲーム理論、オペレーションズリサーチ、等々
書名 概要
Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析
  • 下記のような内容で、Pythonコード例月で学べます
    第1章 データ解析や機械学習を活用した分子設計・材料設計・プロセス設計・プロセス管理
    第2章 実験計画法
    第3章 データ解析や回帰分析の手法
    第4章 モデルの適用範囲
    第5章 実験計画法・適応的実験計画法の実践
    第6章 応用事例
    第7章 さらなる深みを目指すために
    第8章 数学の基礎・Anaconda・Spyder
要注意第2版が出ていますPythonではじめる数理最適化(第2版): ケーススタディでモデリングのスキルを身につけよう

Pythonではじめる数理最適化 ―ケーススタディでモデリングのスキルを身につけよう―
  • 私は未読ですが第2版が出ています。
  • 機械学習とはちょっと範囲外ですが数理最適化もビジネスでよく使われるので最近類書も増えてきました。ただ、なんのためにそれをやっているのかが掴みにくいところがあり、具体例とコード例の豊富な本書を選びました
  • 前半は、連立一次方程式や線形計画法の簡単な例で数理最適化の基礎とPythonコード例を学びます。
  • 後半はビジネスに近い例を解いていきます。
    第Ⅰ部 数理最適化チュートリアル
    第1章 数理モデルとは
    第2章 Python数理最適化チュートリアル
    第Ⅱ部 数理最適化のケーススタディ
    第3章 学校のクラス編成
    第4章 割引クーポンキャンペーンの最適化
    第5章 輸送車両の配送計画
    第6章 数理最適化APIとWebアプリケーションの開発
    第7章 商品推薦のための興味のスコアリング
最適化手法入門
  • 数理最適化も昔から研究されている分野ですので良書がたくさんありますが、東大のOCWでも使われているということとPythonコード例ありとのことで本書を選びました
Python意思決定の数理入門
  • 数理最適化の項でも申し上げましたが、求められている分析テーマが機械学習にハマるものと異なるものがあります。その場合に「わからない」ではなく、調べるための当たりをつけるために広く薄く知っておくというのが私のモットーなため、こういう広く浅い本を多めに読んでいます
  • Amazon書評で「実用的ではない」と低評価の方がいますがわかっちゃいない。「意思決定の数理」なんて広い分野を1冊でビジネスレベルに持ってけるわけがない。あくまでも自分のテーマに近いのがどの分野かと、次に学習を深めるためのガイドブックでしかなく、逆にそういうガイドブックを求めるための方の1冊
    第1章 はじめに
    第2章 戦略の微分方程式モデル
    第3章 基礎的な意思決定の数理的扱い
    第4章 ゲーム理論の基礎
    第5章 意思決定のための OR の基礎
    第6章 組合せ最適化による意思決定
    第7章 マルチエージェントベースモデリングによる意思決定
    第8章 強化学習による意思決定
    第9章 不確定性を含むゲームでの意思決定
    第10章 集団の意思決定
    第11章 意思決定とメカニズム・デザインの視点

2.7. 数学的基礎(微積・線形代数・集合と位相)の4冊

書名 概要
これなら分かる最適化数学
  • 機械学習でも用いられる最適化に必要な(もののみの)微分積分、線形代数の解説。好著中の好著と思いますが、紹介されることが少ないので、これで差が付きます!
  • 機械学習・深層学習のための数学、と題した本が出ていますが内容は微分積分と線形代数の普通のテキストをかいつまんで式の羅列のみって残念な本が多い。機械学習は結局は、モデルを作る→正解との誤差を最小化する≒最適化!、なのでここに特化した本書が一番核心をついて分かりやすいと思います。
  • コンセプトは上記書「統計学の~」に似ているが本書は、より目的の最適化に特化しており、例題を解いていくと定着するようになっている。
  • 「最適化」という言葉がごっちゃでわかりにくいですが、機械学習は誤差を最小にする最適化、数理最適化はコストを最小にするなどの最適化となりどちらも「最適化」が必要です
プログラミングのための線形代数
  • 微分積分は、傾きを求める、細かく分けて足し合わせる、ってなんとなく意味がわかるけれど線形代数って一体なんなんだ?
  • 線形代数の「意味」が分かる
  • 行列は写像だ!
スタンフォード ベクトル・行列からはじめる最適化数学
「集合と位相」をなぜ学ぶのか
  • 微積と線形代数は手を動かす労力を惜しまなければなんとかなると思う。でも集合と位相は「そもそも何をやっているのか?」が全くわからなくなる
  • 最初から読まなくてもよいと思う。以降で紹介する本のなかで、〇〇集合、位相〇〇などの沼にはまりかけたら本書を読むといいと思う。完全解決するわけではないが、ちゃんと意味があってそういった概念が導入されていることは分かる。私も泥んこになりながら格闘中なので大きなことは言えないが、統計学がセクシーな学問とするのであれば、集合・位相をマスターすることが、下記の分かれ目と思っている。
    • 一発屋のグラビアアイドルで終わるのか、女性にも一目置かれる素敵な女優になれるのか
    • 一発屋のアイドル歌手で終わるのか、男性にも一目置かれる素敵な俳優になれるのか
    • 人工知能に使われるデータ処理屋で終わるのか、人工知能にも一目置かれる素敵な課題設定者になれるのか

2.8. プログラミングの3冊

  • プログラマなら言わずもがなな面もありますが、私はRからデータ分析に入ったこともありあえて挙げてみました。
  • オープンソースのAutoMLであるPyCaretについても、プログラミング≒コーディングによる分析環境との位置付けでここに入れます。
書名 概要
Python 実践AIモデル構築 100本ノック
  • 100本ノックシリーズは多数出ており、100個の課題がありそれをPythonで解いていくものです。
  • 本書は分析手法ごとに1つずつ課題を解いていくので、頭の整理にも良いかなと思います。
  • 『[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践』を実践すればそちらでも良いかなと思いますが、こちらの方は手っ取り早く復習という感じですかね。
PyCaretで学ぶ 機械学習入門
  • new新規追加
  • オープンソースのAutoMLであるPyCaretのチュートリアル的解説書です。
  • 下記目次のとおりPyCaretでは前処理からデプロイまでが可能です。
    CHAPTER 01 Pycaretとは
    CHAPTER 02 環境構築
    CHAPTER 03 機械学習の流れ
    CHAPTER 04 教師あり学習 回帰分析
    CHAPTER 05 教師あり学習 分類
    CHAPTER 06 教師なし学習 クラスタリング
    CHAPTER 07 データの前処理
    CHAPTER 08 モデルチューニング
    CHAPTER 09 評価指標
    CHAPTER 10 デプロイ
  • 商用のAutoMLツールと比べると非力ではありますが、知るコストに比べ得られるものが多い選択肢の1つかなと思います。
Pythonで学ぶアルゴリズムとデータ構造 データサイエンス入門シリーズ
  • 機械学習ではないアルゴリズムの本です。
  • 機械学習と言っても教科書データのように綺麗なデータばかりではなく、通常のアルゴリズムを用いてデータ加工や探索が必要な場合があります。基本的なアルゴリズムは押さえておくと便利だと思います。

3. データ管理の3冊

  • テーマが決まったとして、往々にしてあるのが、下記です。
    • データがない
    • データはあるが担当者が独自に加工したExcel等で分析に耐えうるようなものではない
    • IDが統一されてなくて紐付けできない
    • A部署に依頼すれば入手できるが、何に使うのか明示しないと入手できない
  • こうならないためにどうするか、こうなっていたらどうしたら良いかが2番目のハードルです。
  • 大規模データを取り扱うことも増えてきたと思います。Apache Spark本を追加しました。
書名 概要
実践的データ基盤への処方箋
  • いざデータ分析をしようとすると、「あると思っていたデータがない」、「精度を上げるためには〇〇のデータが必要だが他部署に依頼する必要・渋られる」、「ID連携が部署館でなされていない」等々社内データが「使える」状態になっていないことが噴出します。
  • Amazon紹介ページにあるように、社内データを社内で「使える」状態にするためのノウハウを解説した本です。
    「会社内でバラバラになっているデータを集めたが、これから何をしていいか分からない」
    「最新技術を利用してデータ基盤をつくったがニーズがなかった」
    「頻繁に障害が発生するデータ収集に対応してきたが、そのデータは誰にも利用されていなかった」
    「データの意味が分からず、データの意味の聞き込み調査で1日が終わった」
    (中略)
    そこで本書では、データ基盤の本来の機能を甦らせるため、またデータ基盤の構築でつまづかないためノウハウを処方します。データ整備、システムの知識、組織のあり方、データの取り扱いといった"データ基盤を機能させるためのノウハウ"を、この道のプロが惜しげもなく披露します。データ基盤が思うように機能していない、これからデータ基盤を構築したいが何からはじめればよいか分からない、といったことで悩まれている方には一読の価値があるはずです。
世界標準のデータ戦略完全ガイド データセンスを磨く事例から、データの種類と仕組み、戦略策定のステップまで
  • データ分析を含んでデータ活用についての戦略をどう立てどう実行するかのノウハウの本です。
  • Amazon紹介ページにはこう紹介されています。
    データ戦略の目的は主に6つあります。
    1)意思決定プロセスを改善する
    2)顧客(市場)を理解する
    3)より優れたサービスを生み出す
    4)より優れた製品を生み出す
    5)業務プロセスを改善する
    6)データを収益化する
    (中略)
    AI(機械学習など)の仕組みや、インサイトの見いだし方、データインフラの整備、データ能力の高い組織のつくり方までしっかりフォロー。
  • 巻末付録のテンプレートをもとに自社の状況を書き下してみると良いと思います。著者記事青木は別のテンプレートで実施していますが、「あ、ここの共通理解が得られてないな」と早めに気づいて対処することが肝心です。
Apache Spark徹底入門
  • new
  • 本書はDatabricksのエンジン部分というか、Apache Sparkを使いやすくまとめたのがDatabricksで、あり本記事著者青木が触れていたというところもあり。
  • 大規模データを扱うにはいろいろAzureやAWS、Google系はそれぞれみんなお気に入りがあるっしょ、ただそういうのに馴染みがなく大規模データの取り扱いで知りたいという方には、ま、Sparkならそんな間違いないっしょというところで挙げました。

4. PJ全体・その他

4.1. 構築・運用の2冊

  • というわけでここまでマスターするとそれなりの結果が出てきていると思いますが、運用となるとまたハードルがあります
  • どう構築したら良いのか、検証ではそれなりの精度だったモデルが精度が悪化していないか等、がんばろうぜ
書名 概要
AIエンジニアのための機械学習システムデザインパターン
  • では実装となった時にどういうノウハウが必要か。構築・運用について。
  • 本記事著者青木はこの項あまり実績がありません。最低限のところは知っておこうと学んだ程度です。
  • Amazon紹介ページにある通り、機械学習の実装のためのデザインパターンを解説したものです。
    【本書のゴール】
    ・機械学習を実用化する方法が学べる
    ・Pythonによる機械学習ワークフローおよびWebアプリケーション開発の概要を学べる
    ・機械学習を組み込んだシステムの運用ノウハウを得られる
    ・機械学習システムのトラブルシューティングや調査方法を学べる
ディープラーニング実践ガイド
  • 深層学習を用いたアプリ開発や運用の実践例やノウハウ集
  • TensorFlowベース

4.2. 資格の2冊

  • 資格は必ずしも必要ではないかなと思います。ただ触れておいた方が良いかなの観点として、
    • その分野のスタンダードな知識体系を知ることができる。
      • 特にベンダー特定の分析環境を使っていると視野が狭まりがちなので。
    • PJのGo/Stopや、採用・転職を考えるなら採否の判断をする人は必ずしも専門家でないので資格が生きることが多い。
      • でも資格に寄りかかってはダメだよ。
書名 概要
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第3版
  • update新しい版
  • G検定がDS関連の資格で一番広まっているのかな。持っている人が多いので話を合わせるためにも読んでおいて損はないかなと思います。
  • データ分析を専門にしている人でも自分の担当については詳しくなりますが、世の中一般ではここが問われているんだと知ることも必要かなと思います。新案件がどこからくるかわからないので。
  • 本記事著者青木もようやく受け、合格しました!
日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック
  • 統計検定のテキストは要点の羅列で、教える気あんのかゴラァって感じだったのが、本気出したらやればできるじゃんって感じ。統計検定1級よりも広い範囲ではないかと言われる統計検定準1級向けのテキストかつ問題集なのですが、東大出版会統計学入門赤本より広い範囲(一部機械学習的な分野も含む)で、データ分析するための基礎として「こういうところを知ってなきゃだめだよ」という目安としては非常に良いのではないか。
  • 広範囲を1冊にしているため各項目の解説は要点のみとはなりますが、以前のテキストの羅列とは異なり、丁寧であり、章末問題で理解を確かめられます。いきなり本書をテキストとして学ぶのは無茶ですが、いろいろテキストで学んだ後に総整理や、漏れている項目の補強などに役立つと思います。
  • 必ずしも必須ではないですがこれだけ知っておくと強みになりますね。
  • (注)本記事著者青木はまだ受けてないっす

4.3. KAGGLEの3冊

  • 特に絶対必要というわけではないですが、案件が少ない方とか、簡単な案件の方とかは筋トレの要領で受けるのも良いのかも。そして特に特徴量エンジニアリングとか鬼ほど鍛えられますからね。
  • 私は入門のをちょろっとしかしたことないのであまり言えません。むしろここら辺の書籍で精度向上のノウハウを学ぶのがメインです。
  • The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー (impress top gear)は必読だと思うのですが読んでないので挙げず。
    • いえね、英語版買ってしまって積読のまますまん。
書名 概要
実践Data Scienceシリーズ PythonではじめるKaggleスタートブック
  • 前述『Kaggleで勝つデータ分析の技術』の弟分的位置づけ。代表的なコンペティションであるKaggleに勝つというよりもまず始めてみましょうという導入本。
  • 類似の本に『データサイエンスの森 Kaggleの歩き方』がありますが、Kaggle自体の紹介が主で分析入門の記載は少なく、本書を読めばこちらの本は不要かと。
Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ
  • 私が読んだのは洋書版(英語は弱いのですが大部分コード例なので問題ないと思って)
  • 大部分はPythonコード例。
  • 『Kaggleで勝つデータ分析の技術』とほぼ同レベルで、本書はコード例メイン。
  • Kaggleに特化というよりも実際のデータ分析に役立つTips集といった感じ。
Kaggleに挑む深層学習プログラミングの極意
  • テーブルデータではなく、画像分類・検索と自然言語処理中心の本
  • 画像分類や自然言語処理を行う必要が出た場合、テキスト例は「きれいな」分かりやすいデータばかりなので、Kaggleのむずいデータに取り組むと役立つと思う、その準備運動として

5. Next!のX5冊

  • ディープラーニングってなると全部そちらになびくのが嫌い
  • 進化的アルゴリズム
    • 遺伝的アルゴリズムではなく広く「進化的」な動きをするアルゴリズム
    • Sakana AI sakana.ai/blog の言語モデルを進化的アルゴリズムでマージして大規模にしようというので話題になりましたね。遺伝的アルゴリズムをはじめ進化的アルゴリズムは古くからあるのですが、世の中はディープラーニング!となったら全員がそっちに行ってしまうので、ひっそりとした進化的アルゴリズムを学ぶなら今!
書名 概要
Pythonではじめるオープンエンドな進化的アルゴリズム
  • new新規追加
  • 遺伝的アルゴリズムを初めて知った時はすごいなと思ったもののその後表舞台に出ているのをほとんど見ず。和書もほとんど新しいのがなかったですよね。
  • 遺伝的アルゴリズム自体も「進化」していて生物進化を模したアルゴリズムは進化的アルゴリズムと呼ばれるらしい。
  • Sakana AIさんが小規模LLMを進化的アルゴリズムで大きなLLMに作成するというので話題になりましたが、この考え方は有望かなと思うので、挙げました。
Human-in-the-Loop機械学習
  • new新規追加
  • これはNext技術というよりも泥臭い話。
  • 最初"Human-in-the-Loop"という言葉を知った時「どういう夢技術だろう」と思ったけれど、実際は「AIでの全自動は無理だからLoopの中に人を入れて」という泥な話だった。
  • 本書ではそのうち、学習データ作成のアノテーションの話がメイン。
  • ひたすら正解をつけるだけじゃなくて、間違いやすいデータ、半自動化などいろいろテクニカルな話がある。
Federated Learning: プライバシー保護下における機械学習
  • new新規追加
  • 連合学習について唯一?の和書。
  • 連合学習とは、分散しているデータを1つにまとめないで分散したまま学習して結果を得るもの。
  • 分散処理でリソースを有効活用の面もありますが、主には外に出せないデータをそのまま学習させて学習結果のみを得る、そして元のデータの秘匿性は侵さないみたいな技術。
  • 個人や企業の秘匿情報を侵さずに扱えるのでこれからは必須の技術と思います。
量子技術入門
  • new新規追加
  • Nextというよりもうバズりに入っているのだろうか。でもエンジニア的に考えると完全にNextですよね
  • 量子コンピューター本は多量にありますが、量子力学と量子情報科学、そしてそれらをエンジニアリングする量子技術は違っていて、そこをまとめて解説しようという本。
  • むずくてまだ全然理解できていないですが、ここを目指したいなという意味で挙げてます。
リザバーコンピューティング:時系列パターン認識のための高速機械学習の理論とハードウェア
  • new新規追加
  • まさにNext!深層学習は計算コストがネックだが、同等の複雑な問題が解けて計算量を減らすという夢の技術であるリザバーコンピューティング。
  • 水瓶水たまりみたいのが「リザバー」で、そこにデータという小石を投げると波紋が広がるじゃないですか。データのパターンにより波紋が変わり、その波紋を線形学習器で読み取ってしまう。線形学習器だから計算コストがかからないというもの。線形で複雑な問題が解けるかは「波紋」のところの妙味らしい。
  • この技術が有望なのかどうかは正直わかりません。ただ眠っていたニューラルネットワークがここまで隆盛したし、深層学習の計算量ネックはずっとついて回るし、新しいもの好きであれば読んでおいて良いかも。
  • Pythonコードつき

519
664
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
519
664