LoginSignup
624
765

2023年版データ分析の100冊

Last updated at Posted at 2023-08-26

【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本がご好評いただいてましたが古くなりごちゃごちゃしているので新たに作り直しました

  • 本記事のめあて

    • IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております。
      • 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました。
    • ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせてPython本を中心に、Rの本は参考程度にしています(本記事のR版のご要望があれば爆裂書きます!)
    • こういうリストをあげる奴は大抵読んでいない、と過去にも言われたのですが、ほとんど読んでいます。初版を読んだが改訂版が出てそちらは読んでいないのが何冊か、PRMLだけ上しか読まずで下は読んでません(読んでいない本はその旨明示しています)。他の本は全部読んでいます。
  • 紹介本のレベル感

    • A: 入門書
      • その分野がどういうものかを知る
    • B: 中級書
      • 入門書の次に読む本。ここまではおさえておきたい
    • B1: 理論の演習書
      • 問題演習
    • B2: 実装のコード例本
      • Be コード写経
        • コード実装系はPythonベースとしています。Rしかない場合だけ注記してRの本を挙げています
    • C: バイブル的な位置付け
      • その分野を専門にしたいならば繰り返し読んでマスターしたい本
      • 研究者向けのガチバイブルは外しています。あくまでも技術者としての本として。
  • 読む順番の例

    • バックグラウンド、ゴールをどこにするかによりどれをどの順番で読めばいいかは変わりますが、一例としてフローチャートで示しています。
    • mermaidで作図していますが "・"なかぐろ、"「」"かぎかっこ、"。" 等はエラーになるので一部書名を修正しています

掲載冊数1

カテゴリ 100冊 未読だが100冊候補2 次点3
1. 機械学習PJに沿って 46 5 1
2. データ種別ごと 21 3 1
3. 分析手法ごと 21 5 0
4. 数学・Python 7 0 0
5. 資格・Kaggle 5 1 0
100 12 2

1. データ分析PJに沿って

  • 機械学習の本の紹介はたくさんあるのですが、特徴量エンジニアリングや分析手法あるいはその実装の本に偏っていてPJ全体についての紹介が少ないかと思います
  • データ分析プロジェクトのフェーズ毎の参考書籍紹介を書いたら比較的評判が良いので、改めて過去に紹介した本や新しい本を含めて再整理してみました

1.1. プロジェクト全体像の4冊

  • よく言われることですが、データ分析のPJのアルゴリズム部分は比重がかなり少なくて、下記の方が大変だったりしますというか大変です
    • どういう分析テーマを設定するか
    • データをどう集めるか
    • (汚い)データを機械学習に当てはめるためにどう綺麗にするか
    • 出てきた結果をユーザーにわかってもらうためにどう表現するか
    • 精度のよいモデルができたとして業務にどう組み込むか
    • 運用をどうするか
  • 趣味なら「ディープラーニングやってみた」でいいですが仕事に使うのであれば、仕事に使われるデータ分析とはどういうものか、どうしたら失敗するのかを知ることが大切です
  • データ分析を成功させるために『データ分析失敗事例集』『データドリブン思考』から見えてくることを書きました
レベル 書名 概要
A AI・データ分析プロジェクトのすべて ビジネス力×技術力=価値創出
  • データ分析プロジェクトの全体像を俯瞰的に解説した本。アルゴリズムがどうのではなくて、体制の組み方、外注の仕方などプロジェクト自体をどう設定してどう動かすのかについて書かれている。
  • 入門として薦める方がいらっしゃいますがこれを読んでしっくり来るかは疑問。ある程度試行錯誤したあとの整理に良い本ではないかと思う。
A 仕事ではじめる機械学習 第2版
  • 下記目次で示されるとおり、「仕事で使う」という軸で機械学習に必要な項目を概説している
    1章 機械学習プロジェクトのはじめ方
    2章 機械学習で何ができる?
    3章 学習結果を評価するには
    4章 システムに機械学習を組み込む
    5章 学習のためのリソースを収集する
    6章 継続的トレーニングをするための機械学習基盤
    7章 効果検証:機械学習にもとづいた施策の成果を判断する
    8章 機械学習のモデルを解釈する
    第II部
    9章 Kickstarterの分析、機械学習を使わないという選択肢
    10章 Uplift Modelingによるマーケティング資源の効率化
    11章 バンディットアルゴリズムによる強化学習入門
    12章 オンライン広告における機械学習
A 分析者のための データ解釈学入門
  • 「私が5年も回り道して学んでいたのは何だったのか!」
  • ただ、最初にこれだけを読んでも理解が深まるかは分からない。前述の本等で自分で手を動かしていろいろ苦労して疑問が山のように出てから本書を(まー並行してでもいいか)読むと理解が深まると思う。
  • 帯にもありますが「データの取得・分析・解釈・活用の各段階で知っておくべき技術」が分かる。まぁまぁのベテランでも誤解しやすいところも分かる。必読の本。
A データ分析失敗事例集: 失敗から学び、成功を手にする
  • データ分析PJを多数実践してきた方ならば目次だけで泣けるだろうし、これからの方は次に迫る失敗を乗り越えるために要注意な点が満載
    Part Ⅰ 「えーあい」でなんとかして!
    CASE 1 UIを統一してUXが破綻する 
    CASE 2 誰のための仕事? それが問題だ 
    CASE 3 最先端アピールのための最先端プロジェクト 
    CASE 4 本当に季節性はありますか 
    CASE 5 レコメンドの必要ありますか 
    CASE 6 分析を現場でどう使うか 
    CASE 7 ほとんど故障しない製品の故障予知 
    CASE 8 AIという言葉の曖昧さ 
    CASE 9 そんな目的変数で大丈夫か 
    コラム データサイエンティストとしての生き方 
    Part Ⅱ 翻弄されるデータサイエンティスト
    CASE 10 成功した報告しか聞きたくない 
    CASE 11 ターゲティングの必要性 
    CASE 12 決定木分析は決定木だけではない 
    CASE 13 ドメイン知識の重要性 
    CASE 14 政治的な数字の応酬 
    CASE 15 プロダクトアウトでもドメイン知識は大事 
    CASE 16 スタイルの違いが引き起こした混乱 
    CASE 17 いくら分析したところで、売れないものは売れない 
    コラム データサイエンティストの人事事情 
    Part Ⅲ その失敗を超えてゆけ
    CASE 18 カオス状態のBIレポート 
    CASE 19 用意できたのは集計データのみ。予測精度はどこまで…… 
    CASE 20 取ってびっくり、こんなに使えるデータは少ないのか 
    CASE 21 頑張って予測していたのは…… 
    CASE 22 木を見て森を見ずはキケン 
    CASE 23 総人口の十倍を超えるID数との出会い 
    CASE 24 最終報告が終わってから集計の仕様が決まる 
    CASE 25 機械学習モジュールの寿命 
    コラム 絶対に失敗しないデータ分析

1.2. テーマ探索・定義の4冊

  • 前項に続いて、仕事にデータ分析を適用するのは難しいです。まず最初から間違っているのは「AIで何かやれ」「AIにデータを食わせれば何か出てくるのでは」です。
  • 仕事というのは意思決定です。その意思決定にデータ分析結果が必要なのかどうか、必要ないのであればAIは何の役にも立ちません。まずはデータ分析が必要なテーマなのかどうか見極めましょう。
レベル 書名 概要
AB1 データ分析・AIを実務に活かす データドリブン思考
  • 実際のビジネスへのデータ分析適用の第一人者と言っていい河本薫氏の本
  • キーワードは「意思決定」
    「現場で活用される」とは「現場の意思決定に活用される」ということ。「意思決定に活用される」とは「意思決定プロセスに分析結果が使われる」ということ。そして、意思決定プロセスに分析結果が使われるには、意思決定に有用なデータ分析を行うだけでなく、分析結果が意思決定に活用されるように「意思決定プロセスを設計する」必要があることに気づきました。
  • ここ非常に重要と思う
    「問題」とは、目標と現状との間いにあるギャップのこと。
    「課題」とは、目標と現状とのギャップを埋めるためにやるべきこと、すなわち、「問題」を解消するためにやるべきこと。
  • そしてビジネスで用いられる意思決定を6種類に分類しています
    A 反復選択型
    B 体制選択型
    C 原因特定型
    D 計画策定型
    E 仮説思考型
    F 経営判断型
  • このように分析テーマについて非常に論理的にビジネスにデータ分析を適用するということはどういうことかが解説されています
AB1 世界標準のデータ戦略完全ガイド データセンスを磨く事例から、データの種類と仕組み、戦略策定のステップまで
  • データ分析を含んでデータ活用についての戦略をどう立てどう実行するかのノウハウの本です。
  • Amazon紹介ページにはこう紹介されています。
    データ戦略の目的は主に6つあります。
    1)意思決定プロセスを改善する
    2)顧客(市場)を理解する
    3)より優れたサービスを生み出す
    4)より優れた製品を生み出す
    5)業務プロセスを改善する
    6)データを収益化する
    (中略)
    AI(機械学習など)の仕組みや、インサイトの見いだし方、データインフラの整備、データ能力の高い組織のつくり方までしっかりフォロー。
  • 巻末付録のテンプレートをもとに自社の状況を書き下してみると良いと思います。著者記事青木は別のテンプレートで実施していますが、「あ、ここの共通理解が得られてないな」と早めに気づいて対処することが肝心です。
AB1 最強のデータ分析組織
  • 同じく河本薫氏の本
  • 氏が元大阪ガス時代に苦労して作り上げたデータ分析チームについて
B1 なぜ「戦略」で差がつくのか。
  • マーケター向けの本であり、本ブログ著作青木もマーケティング関連の勉強として読みましたがかなりの衝撃を受けました。マーケティングのみでなくおよそビジネスで「戦略」という言葉が出てくる分野には全て通用する話です。
  • 皆簡単に「戦略」という言葉を使い共通理解がないまま破綻していませんか。
  • Amazon紹介ページにある通り、ほとんどの会社が無自覚に「戦略」という言葉を使っていると思います。
    しかし、経営戦略、マーケティング戦略、広告戦略、営業戦略…
    と企業の中では「戦略」という言葉が必要以上に多用されています。定義や意味が曖昧なため、ビジネスの現場で混乱や誤解を招く原因にもなり、実際的に戦略を運用する上では、ほとんど役に立ちません。
    つまり「戦略」は、いまだにかなり曖昧な単語だということです。戦略の考え方のひとつを理解することは、今後の選択や意思決定に対して有効な指針となります。本書は、それぞれの読者が戦略を実践的な思考の道具として体得されることを目指すものです。
  • 「AIでなんかしたい」というような場面もまだ見受けられます。そのデータ分析プロジェクトで何をしたいのか、リソース制約は何か、整理することが求められます。本書は関係者の共通理解を得るための第一歩になると思います。
  • 本ブログ著者の青木は「戦略においては、限られたリソースのもと目的達成のために何を実施し、何を捨てるか、の『何を捨てる』の共通理解を得ることが一番大事」と本書を理解しています。

1.3. データの準備・管理

  • テーマが決まったとして、往々にしてあるのが、下記です。
    • データがない
    • データはあるが担当者が独自に加工したExcel等で分析に耐えうるようなものではない
    • IDが統一されてなくて紐付けできない
    • A部署に依頼すれば入手できるが、何に使うのか明示しないと入手できない
  • こうならないためにどうするか、こうなっていたらどうしたら良いかが2番目のハードルです。

データの準備・管理の2冊

レベル 書名 概要
B1 データマネジメント大全
  • 下記目次のとおり、データ分析ではなくデータ活用のためにどうデータを管理するかの本です
  • 機械学習の教科書だとわかりやすいデータが用意されていて、これで分類しましょう、とかとなりますが、現実の問題では、あると言われたデータがない、言われたのとは全然違うフォーマット、担当者が独自のExcelでバラバラに持っている、ID体系が異なり突き合わせができない、A部署にあると言われたがA部署からNoと言われもらえない等々が発生します
  • そうならないために、それを解決するためにどうするかという本です
    第1章 DXの正しい歩み方
    第2章 DX推進の鍵を握るデータドリブン経営
    第3章 データドリブン経営の成敗を左右するデータ利活用
    第4章 データ利活用を支えるデータマネジメントの全体像
    第5章 データマネジメント 戦略層
    第6章 データマネジメント 実行層
    第7章 データマネジメント 組織とヒト層
B1 実践的データ基盤への処方箋
  • いざデータ分析をしようとすると、「あると思っていたデータがない」、「精度を上げるためには〇〇のデータが必要だが他部署に依頼する必要・渋られる」、「ID連携が部署館でなされていない」等々社内データが「使える」状態になっていないことが噴出します。
  • Amazon紹介ページにあるように、社内データを社内で「使える」状態にするためのノウハウを解説した本です。
    「会社内でバラバラになっているデータを集めたが、これから何をしていいか分からない」
    「最新技術を利用してデータ基盤をつくったがニーズがなかった」
    「頻繁に障害が発生するデータ収集に対応してきたが、そのデータは誰にも利用されていなかった」
    「データの意味が分からず、データの意味の聞き込み調査で1日が終わった」
    (中略)
    そこで本書では、データ基盤の本来の機能を甦らせるため、またデータ基盤の構築でつまづかないためノウハウを処方します。データ整備、システムの知識、組織のあり方、データの取り扱いといった"データ基盤を機能させるためのノウハウ"を、この道のプロが惜しげもなく披露します。データ基盤が思うように機能していない、これからデータ基盤を構築したいが何からはじめればよいか分からない、といったことで悩まれている方には一読の価値があるはずです。

1.4. 前処理・特徴量エンジニアリングの5冊

  • 続いて、データが用意されたとして、機械学習アルゴリズムは結構グルメです。美味しい(分類・回帰等に適した)データでないと臍を曲げてまともな結果を返してくれません。
  • データを食べられるようにするにはどうしたら良いかの前処理と、より美味しくするためにはどうしたら良いかの特徴量エンジニアリングは重要です。
レベル 書名 概要
B2 前処理大全
  • 実業務ではデータの汚さと格闘することになります。
  • データ分析の8割は前処理、などと言われる割にはまとまった解説書がなかった。(この時点では本邦初だった)。必読。
  • 「前処理○○」という類書がありますが、本当に前処理について網羅的に丁寧に記述しているのは本書。
  • データの集計・結合・分割・生成などの整形の大全。1つの課題に対し、SQL、Python、Rの3言語でどう対処するかのコード例、また言語による得手不得手の明示。
  • ググればたいてい見つかるものだけど、思い込みで局所解に陥っていたら効率の悪いコードにハマっているかも。一度正解を眺めておくだけでも深みにハマることを避けられると思う。
B12 欠測データ処理: Rによる単一代入法と多重代入法
  • Rでの本ですがPythonでの本で適当なものがなく、要点は言語関係ないので取り上げました
  • 欠測値の扱いはこれからどんどん高まるはず。
  • 機械学習アルゴリズムによっては欠測値は特に処理しないでそのまま扱えることも多いけど、そうでない場合もある。そんなとき欠測値は厄介なのでみんな適当に処理しがち。
  • 結構しっかりした統計の本でも「欠測値があるデータは除くこと」、「平均で埋める」などとしていることが多いが、むやみにデータを除くと分散などが歪む、適切な値で埋めないと分散が小さくなる、正しく埋める方法がある
  • ことをRコードを示しながら丁寧に解説している。日本の統計の杜撰さが話題になってますが意図して、せずに関わらずビジネスのデータは欠損が多い。今後非常に重要になってくるはずです。今のうちに学ぼう。
B2 機械学習のための特徴量エンジニアリング
  • 機械学習モデルにそのままデータを投入すればよいわけではなく特徴量のうまい調理方法がありそれは特徴量エンジニアリングと呼ばれる
  • 『前処理大全』『Kaggleで勝つデータ分析の技術』にも一部言及があるが本書は特徴量エンジニアリングに特化した本。
  • 数値データの対数化等の加工、自然言語処理でのBoW、カテゴリデータの扱い、次元削減、k-means、深層学習での画像特徴量の抽出など基本だが重要な概念をコード例付きで詳しく解説している。
B12 Kaggleで勝つデータ分析の技術
  • Kaggle本ですが、Kaggleのためであれば新しい本が出ており、本書は古くなっています。本書はKaggle向けだけではなくデータ分析に必要な特徴量エンジニアリングを含めて基本的なノウハウを網羅しているので、あえてこちらに入れました。
  • 爆売れしているらしい。そら売れるだろう。キャッチーな「Kaggleで勝つ」に加えて内容がいいもの。
  • Kaggle名人(Masterなど)がドヤ顔せず丁寧に手の内を明かしてくれている。
  • データの前処理、アルゴリズム選定、パラメータ設定等あるいみすべて。
  • Kaggleで勝つための小細工もあるが、Kaggleなんてする気ねぇという気質の分析者にも実務で得るところ多いはず。
  • いやーこんなのが日本語で数千円で読めるなんてすごい時代になったなー昔なんて洋書か大部な数式だらけの本しかなかったんだぜ。
B1 サンプルサイズの決め方 (統計ライブラリー)
  • 多くの場合すでにあるデータから分析を始めてしまいますが、本来は分析目的に応じてデータを準備することが必要です。
  • 機械学習ではなくて統計的検定時に必要なサンプルサイズについての理論書。
  • データ分析の実務に忙しいときにそれほど頻度が高くない統計的検定についてしっかり学ぶ時間はないかもしれないが、サンプルサイズは常に問われる。
  • 一度ざっと読んで頭の片隅に入れておき、必要になったときに取り出せるように準備するものかなと思う。
  • 未読だが100冊候補

1.5. 分析手法-統計学の6冊

  • 統計学が入門で機械学習がその応用としているような解説をまま見ますが違います
  • TJOさんの記事「統計学と機械学習の違い」はどう論じたら良いのかに詳しいですが、

    統計学はデータを「説明」することにより重きを置く
    (中略)
    機械学習はデータから「予測」することにより重きを置く
    (中略)
    とは言え、統計学と機械学習の違いは基本的にはそれほど大きくないし互いに重なる部分だらけ

  • ということで機械学習の前提知識や基礎という意味ではなく、別の面から見る、という意味で統計学を身につけるものかと思います
レベル 書名 概要
A 基礎から学ぶ統計学
  • 『バイオサイエンスのための統計学』に替わる位置付けでは?とかきましたが、読んだところ統計学の基本的なところをより丁寧にという本でした。
  • 北大農学部の統計学入門の授業をテキストにまとめたようです。ですので必ずしも数学に馴染みがない学生向けに非常に丁寧にリアルな例とグラフを多用してわかりやすく説明しています。
  • 後述の『データ分析に必須の知識・考え方 統計学入門』の方が範囲が広いのでやや手薄になりがちな基本概念を非常に丁寧に解説しているので、「統計学なんもわからん」という方であればまず本書が良さそうです。
A データ分析に必須の知識・考え方 統計学入門
  • 必読。私は苦労して学んだのに今の人は本書から入れてずるいって感じ
  • 統計学とデータ分析はかなりかぶるのですが、少ないデータをどう扱うかの理論武装をしている面がある統計学とデータ量で力任せな機械学習と味方が異なる面があります。
  • なので統計学の本で機械学習にはあまり要らないなーという項目もあるのですが、本書はサブタイトルに「データ分析に必須の知識・考え方」とあり、必要な点に絞りかつ統計学の入門書ではあまり扱わない項目(統計モデリング、数理モデリング、機械学習の基礎等)も含まれています
    • 統計分析の目的は何ですか?
    • p値の意味を理解していますか?
    • 相関と因果を区別できていますか?
    • その結果に再現性がありますか?
  • 数式は最小限でイラストを多用して本質について解説してくれています。
AB1 プログラミングのための確率統計
  • 確率・統計の「意味」が分かる。題名の「プログラミング」はほぼ関係ない。簡単にだが「カルマンフィルタ」なども紹介されている。
  • 確率は面積だ!
B1 統計学入門 (基礎統計学)いわゆる「赤本」
  • 本書が理論理解入門の定番とされてますが、やや難しいです。ただ、分からない概念が出てきたときに本書に戻ると解説されていることが多いです。
  • ググれば分かりますし、統計学入門なら別の本がたくさんありますが、「これが共通言語」という意味では手元に置いておいたほうがよいと思います。
B1 新版 統計学のセンス
  • 医学統計学シリーズですが、医学以外でもデータ分析をする人は必読と絶賛される方もいらっしゃいます。ただ私はそれほどとは思いませんでした。でも他の人がある程度読んでいる本は基礎知識として必要かなと思うので100冊に入れてみました。
    • ノンパラメトリックの検定の記述について
    • https://twitter.com/h_okumura/status/1067353061310455808
    • こんな指摘もあり、また例示も(医学統計学シリーズなので当然ながら)医学を知らないと理解しづらいものが多く、少なくともデータ分析をする人に向け強く勧めるほどの本ではないと思います。
  • もちろん、気づきづらいところ、間違えやすいところに丁寧な解説があるので、読む価値はあると思いますが、ある程度実力をつけた方が補強として参考に読む程度かなと思います。
  • 次点
    • AB1 バイオサイエンスのための統計学
      • 『基礎から学ぶ統計学』を入れ、泣く泣く本書は次点として落としました。ただ、他書にない特色があり、『基礎から学ぶ統計学』にない多群検定も丁寧な解説があるなど一応次点として掲載しておきます。
      • 「バイオサイエンスのための」となっていますが一般にも十分に役に立つと思います。
      • 分布や検定で統計値が出ますが統計値が幾つだとどういうデータの分布をしているかをイラストで表してくれています。他書ではない画期的な表現と思います。

1.6. 分析手法-アルゴリズム-1の7冊

  • みんな大好きデータ分析のアルゴリズムにやっと辿り着きました
  • ここで「数学がー」と騒がれるのですが、私は断然コード写経派です。研究者ならば数式をがっつり理解しないといけませんが、データ分析の技術者であればまずはコード写経でなれることが王道だし、早道と思います
  • もちろん理論を知っている方が応用が効きますが、コード写経で、このデータをこのライブラリでこのハイパーパラメータで扱うとこういう結果が出るのだな、と知った上での方が数式の意味も入りやすいです
    • もちろん理論書の式展開や章末問題をきちんと解くということまですれば差別化につながりますが
    • つか俺アルゴリズムの本ちゃんと読んでないなと慌ててPRML読み中
レベル 書名 概要
A 見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑
  • 「このくらいわかってるよ」という方もいらっしゃると思いますが、LSA, NMF, LDA, LLEとかちゃんと説明できますか。
  • 『データ分析のための数理モデル入門』、『分析者のためのデータ解釈学入門』なども出たので図解でわかりやすい唯一の本、という価値は薄れたかもしれないですけど、基本概念を図解でどう示したらいいか、という観点なら本書が一番かと。提案書やレポートでアルゴリズムなどを顧客に説明しなけらばならない時など参考になると思います。
A 本質を捉えたデータ分析のための 分析モデル入門
  • 機械学習アルゴリズムを知るには数学が必要ですが難しく、数式の海に溺れがちです
  • 回帰分析、ロジスティック回帰など基礎的なところから、教師あり学習、教師なし学習、強化学習、深層学習、画像処理、自然言語処理など非常に幅広く、その本質を数式とともにイラストで分かりやすく示してくれています
B2 [第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践
  • 私が読んだのは初版だがわずか4年でもう最新では3版となっている。Amazon等でも大変評判がよいようだ。類書がたくさん出てきているが、Pythonで機械学習をすなら必須ではないか。
  • 学び方はいろいろあると思いますが、数式を見てすぐ具体的イメージを掴める人は別として、そうでない方はまずコード写経で、こういうデータを投入してこのライブラリを使うとこういうアウトプットが出るのが〇〇アルゴリズムなんだ、という体で覚えてあとで理論を学ぶ方が早道と思う
  • なので機械学習の広い分野のコードが載っている本でコード写経が一番だと思っている
  • 私はRから入ったので『Rによるデータサイエンス』という本ではじめましたが、それが現在の基礎になっています
B1 はじめてのパターン認識 いわゆるはじパタ本
  • 本書が理論入門の定番とされている、と思う。深層学習については言及がないが、機械学習で用いられる手法についてほぼ網羅されている。後掲PRMLを勧める方が多いが、研究者でもない限りいきなり読んでも挫折すると思うのでまずは本書からが良いと思う。
  • 本書と前述の『Rによるデータサイエンス』を行ったり来たりしながら、ではないでしょうか、数好きに弱い人が慣れていくには。
B2 Pytyhonで始める教師なし学習
  • 教師あり学習が主で、教師なし学習は添え物的に扱われがちですが、実際のビジネスにおいてはデータがないことがかなりある。
  • 次元削減、異常検出、クラスタリングから深層学習を用いた手法、時系列クラスタリングまで、教師なし学習の代表的な手法をコード付きで丁寧に解説している。
B2 Optunaによるブラックボックス最適化
  • 機械学習アルゴリズムのハイパーパラメーターの最適化を行うOptunaについて開発者らの解説本
  • 機械学習アルゴリズム本の一節に簡単に取り上げられることが多いですが1冊丸ごとでの解説本。
C パターン認識と機械学習 上

パターン認識と機械学習 下 いわゆるPRML
  • ベイズの立場から機械学習アルゴリズムを解説した定番書
  • あ私上巻しか読んでないしまともに読んだ本ははじパタだけかやばいな
  • でもむずいので前提知識を解説した 『パターン認識と機械学習の学習 普及版』 なんてのもあるよ

1.7. 分析手法-アルゴリズム-2(深層学習)の7冊

  • 何でもかんでもはできないので、深層学習については本記事著者青木は最低限だけで避けてきたのだけれどLLMの大波で改めて勉強している
  • 深層学習はあまり実装したことないので実装系の本が入ってないのはご容赦
    • 画像処理、自然言語処理の項にて
レベル 書名 概要
AB1 ディープラーニングを支える技術
  • 類書がたくさんありますが難しいか端折っていて要点がわからないか
  • 本書は第一人者のPFN岡野原氏の著者であり、要点を外さない解説
AB1 ディープラーニングを支える技術2
  • 本書は前著に続き「生成モデル」「深層強化学習」について解説している
B2 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
  • ライブラリを用いたコーディング事例ではなく、ディープニューラルネットワーク自体をほぼスクラッチで書こうという本
  • ディープラーニングよりもその基礎のニューラルネットワークの解説が中心。
  • 数式の本が難しく、フレームワークでなぞるだけでは物足りない方が、原理をしっかり理解したい場合の導入としてちょうどよい本と思う。
C 深層学習 改訂第2版
B1 AI技術の最前線 これからのAIを読み解く先端技術73
  • 大きく4つのテーマに対し、PFN岡野原氏が最先端研究の論文をかいつまんで紹介してくれている
    第1部 知能とは何か、ディープラーニングとは何か
    第2部 学習手法
    第3部 モデルとアーキテクチャ
    第4部 ドメイン応用
B2 生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする
  • 現在大流行の生成AIのPythonによる入門書
  • 第I部は基礎編として、変分オートエンコーダ、GANやRNN等、基礎技術を
  • 第II部は応用編として、CycleGAN、エンコーダ―デコーダモデル、MuseGANなどのモデルを作成し、作画、作文、作曲を試す
B1 創るためのAI 機械と創造性のはてしない物語
  • メディアアーティストでメディア工学の専門家の徳永氏が創造性についてAIとの付き合い方を書いた本
  • なんか怪しいあやかり本が多数出ている現在、「情報・通信分野に関する優れた図書に与えられ、これを表彰すると共に情報・通信分野における、さらなるに発展と啓蒙に寄与」という大川出版賞を受賞した本書は専門家のスタンダードな見解として一読に値すると思う

1.8. 評価指標・XAIの4冊

  • 機械学習モデルの評価指標はLogLossが一般的だけれど、一般の方には伝わらない。一般の方には正解率が伝わりやすいですがTrue/Negativeが偏っている時や多群の時は微妙。テーマやユーザーの方が何を求めているかによって評価指標の良し悪しを見極めて適用する必要がある
  • 機械学習はブラックボックスと言われてきましたがある程度まで中身がわかるようになってきました。XAIという呪文みたいな名前ですが、機械学習の説明性はビジネス用途のデータ分析では重要と思います。
レベル 書名 概要
AB12 評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
  • 評価指標については機械学習解説本の中で触れられてはいましたが、その理論の解説がメインであり、どうビジネスのKPIとつなげるか等の解説は手薄だったと思います。
  • Amazon紹介ページにあるように、本書ではデータサイエンスの空間とビジネスの空間での「指標」が異なることを意識し、それらの「指標」の特徴をしっかり把握した上で、どうつないでいくか、を解説してくれています。
  • 「評価指標でXXXという最高のスコアが出た!」と喜び勇んで、機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが、ビジネス上のKPIと相関が高い評価指標を選んでいなかったために、KPIの推移を見てみると大した変化がありませんでした。
    (中略)
    このような状況が起きてしまう背景にはさまざまな原因が考えられますが、あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。
    (中略)
    本書はこれらの疑問に答えるため、機械学習の良し悪しを決める評価指標を軸に、解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか、その原理を解説していきます。この原理が普遍的なものであれば、ビジネスがどんなものであっても応用できると考えることができます。
B12 XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?
  • AIの説明性について、ネット記事もお客様とのやりとりの中でも話題に挙がることが増えた。
  • 大極的説明、局所説明などの考え方の整理から、LIME, SHAP, Permutation Importance, Partial Dependence Plot, Tree Surrogate, CAM/Grad-CAM, Integrated Gradientsなどの具体的なアルゴリズムの説明、実装例及びそれぞれの得手不得手などが詳しい。
  • Kaggleなどのコンペでスコア上位を目指すのではなく、実務で機械学習を用い内容の説明が求められるならば必須ではないか。
B12 機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック
前著とかなり被りますが、機械学習の解釈についてコード例つきで解説しています。
B12 実践XAI[説明可能なAI] 機械学習の予測を説明するためのPythonコーディング
  • 概念の整理は『XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?』の方がわかりやすいが、本書は、自然言語や、画像、時系列など幅広く扱っている

1.9. 可視化の6冊

  • 基礎集計のための可視化と、分析結果を共有するための可視化があるかと思います。ここでは特に分けずにリストしています。
  • データ構造、分析内容が複雑となってきており、ユーザーへの説明はもちろん分析者自身もその結果を共有するのに苦労します。可視化は今後ますます重要になってくると思います。
  • その他関連書を データ可視化の本10冊 にも書いております。
レベル 書名 概要
A データ視覚化のデザイン
  • 著者はTableauのコンサルティングがご専門のようですが広くデータ分析での可視化にもそのまま適用できる本かと思います。データ分析に詳しくないユーザーや顧客に分析結果をどう提示するかに悩んでいる方には必読と思います。
  • 作図をしているとついつい情報を詰め込みがちになるのは誰しも経験のあるところではないでしょうか。本書にある「詰め込むな削れ」は痛いところを突かれたと思う方も多いのではないでしょうか。
  • 通常のデータ分析での可視化の本はライブラリの使い方がメインですがそもそもどういう伝え方をしたいのかで図が決まりますがそこを解説している本は少ないです。目次も、魅せ方を意識した内容です。
    第1章 データ視覚化「キモのキモ」
    第2章 これだけでグッとプロっぽくなるコツ
    第3章 目的に応じたチャートの選択
    第4章 事例で学ぶーダッシュボード作成過程思考キャプションー
    第5章 本当に組織に根付かせるために
AB1 フィナンシャルタイムズ式 図解の技術
  • フィナンシャルタイムズの編集者が図解を9カテゴリ74図に分け、丁寧に解説しています。
  • グラフはなんとなく描くものではなく、何を示したいかにより使い分けるということです
  • 74図中12図ですがまだ、 図解の言語をすべてPythonで実装例を作成する目論見 を公開しています。
AB1 DataStory: 人を動かすストーリーテリング
  • 精度が良いモデルができてもビジネス展開できなければ意味がない。
  • 上司や現場の担当に「RMSEが○○で……」では伝わらず分かりやすくストーリー立てた可視化による説明が必要となる。
  • 可視化のライブラリ解説や、スライド作成等の本はありますがAmazon紹介文にあるように、下記のような内容の本は今までほとんどなかったと思います。
    「共感」というレンズを通してデータを説明すること
    データをストーリーにして相手の行動を促す方法
    上司や不特定多数の人に承認される提案書のつくりかた
    グラフの所見をわかりやすく書き、注釈を付ける方法
    スライドの構成とレイアウトについてのコツ
    データに命を吹き込み、記憶に残るものにして相手の行動を促す方法
AB1 ハーバード・ビジネス・レビュー流 データビジュアライゼーション
  • 前著『フィナンシャルタイムズ式 図解の技術』とコンセプトは被ります
  • フィナンシャルタイムズとこちらはハーバード・ビジネス・レビューのノウハウの違い
  • どちらもビジネス系の複雑なデータをどうわかりやすく表現するかと考え抜いている専門家のノウハウなので有益ですが強いてあげると、前者は「図解の言語」としてシステマティックに分類を、本書はDataStoryと同じくどういうストーリーで表現するかに重きを置いてますが、こだわるならばどちらも読んだ方が良いと思います
  • 直接この本についてではにですが同じチートシートをPython/matplotlibで実装している記事がありましたケース別データの可視化パターンとpythonによる実装
AB2 データ分析者のためのPythonデータビジュアライゼーション入門
  • 棒グラフ、ヒストグラム、散布図など代表的なものから地図情報、ワードクラウド、インフォグラフィックスの触りまで、Pythonによるコード例付きで分かりやすいです。Pythonでデータ可視化をするならばまず手に取りたい1冊です。
B1 ビジネスダッシュボード 設計・実装ガイドブック 成果を生み出すデータと分析のデザイン
  • CDP(カスタマーデータプラットフォーム)の第一人者トレジャーデータの専門家がダッシュボードについて解説した本
  • トレジャーデータのツールに依ることなく一般論として語られているのでツール関係なくノウハウを学べます

1.10. 構築・運用の2冊

  • というわけでここまでマスターするとそれなりの結果が出てきていると思いますが、運用となるとまたハードルがあります
  • どう構築したら良いのか、検証ではそれなりの精度だったモデルが精度が悪化していないか等、がんばろうぜ
レベル:目的 書名 概要
B12 AIエンジニアのための機械学習システムデザインパターン
  • では実装となった時にどういうノウハウが必要か。構築・運用について。
  • 本記事著者青木はこの項あまり実績がありません。最低限のところは知っておこうと学んだ程度です。
  • Amazon紹介ページにある通り、機械学習の実装のためのデザインパターンを解説したものです。
    【本書のゴール】
    ・機械学習を実用化する方法が学べる
    ・Pythonによる機械学習ワークフローおよびWebアプリケーション開発の概要を学べる
    ・機械学習を組み込んだシステムの運用ノウハウを得られる
    ・機械学習システムのトラブルシューティングや調査方法を学べる
B2 ディープラーニング実践ガイド
  • 深層学習を用いたアプリ開発や運用の実践例やノウハウ集
  • TensorFlowベース

2. 取り扱うデータ別

2.1. 自然言語処理の5冊

%%% 実践に向かう矢を変更 実践自然言語処理からでもよいのでは
機械学習エンジニアのためのTransformersをやはり入れたい

レベル 書名 概要
AB2 Pythonではじめるテキストアナリティクス入門
  • いきなりChatGPTを操りたくなると思いますが、まずは基本の形態素解析やTF-IDFなどの頻度分析から触れるべきだと思う
  • 本書は自然言語取扱の基礎から、口コミを利用した観光地の分析、有価証券報告書を用いた日経平均予想、Twitter・2ちゃんねるデータによる分析などで基礎を身につけることができます
B2 実践 自然言語処理 ―実世界NLPアプリケーション開発のベストプラクティス
  • 技術の解説・コード例ということではなく現実の問題への適用集
  • テキスト分類、情報抽出、チャットボット、情報検索、トピックモデル、要約、推薦システム、機械翻訳、質問応答システム
  • SNS、Eコマース、医療・金融・法律への適用事例
  • 日本語版のみ巻末に日本語自然言語処理ライブラリSpaCyの解説記事がある。
  • 本書の公式サイト https://www.practicalnlp.ai/
  • 本書のコード例ノートブック Practical Natural Language Processing
  • ライブラリとしてTransformersなどを用いている
B1 IT Text 自然言語処理の基礎
  • がち
  • 大規模言語モデルの流行でプロンプトがどうしたこうしたと浮ついた本がたくさん出ていますが、それだけでは解決しないし、すぐ流行り廃りはあるし
  • でもインターネットの移ろいがあってもTCP/IPが全く揺るがないように根っこの技術を学ぼうじゃないか
    第1章 自然言語処理の概要
    第2章 自然言語処理のための機械学習の基礎
    第3章 単語ベクトル表現
    第4章 系列に対するニューラルネットワーク
    第5章 言語モデル・系列変換モデル
    第6章 Transformer
    第7章 事前学習済みモデルと転移学習
    第8章 系列ラベリング
    第9章 構文解析
    第10章 意味解析
    第11章 応用タスク・まとめ
B12 大規模言語モデル入門
  • transformersライブラリを用いてコーディングしながら大規模言語モデルの理論と実装の両方を体験できる嬉しい本
  • 下記のような目次で、大規模言語モデルを一通り学べる
    第1章はじめに(transformersを使って自然言語処理を解いてみよう)
    第2章 Transformer
    第3章 大規模言語モデルの基礎
    第4章大規模言語モデルの進展
    第5章 大規模言語モデルのファインチューニング
    第6章 固有表現認識
    第7章 要約生成
    第8章 文埋め込み
    第9章 質問応答
A 大規模言語モデルは新たな知能か ChatGPTが変えた世界
  • 大規模言語モデルがこんな流行るとは!
  • 雨後の筍のように便乗本が出ていますがほとんどは消えます。この記事を読むような方は本質を
  • 難しいのですが、PFNの岡野原さんが分かりやすい解説書を出してくれました
  • 未読だが100冊候補
    • 自然言語処理〔三訂版〕 (放送大学教材)
      • 私が読んだのは初版で、もう三訂版なのでかなり変わってるかもなので一旦外しました。
      • ただ、放送大学テキストは偏りなく要点を網羅しているのが助かります。『IT Text 自然言語処理の基礎』では数式の海に埋もれて全体像を見失うというような方(私とか)には自然言語処理の全体を俯瞰にするのは良い本だと思います

2.2. 時系列分析の5冊

レベル 書名 概要
AB2 Pythonによる時系列分析
  • 下記本が最初の1冊と思っていましたが、本書の方が網羅性、実践例もあり適切か
  • 時系列データの特徴、時系列分析手法の概要、そして異常検知、未来予測等のビジネス事例が7つと最初の1冊として十分な内容をPythonコードで試しながら学べる。
AB2 時系列解析: 自己回帰型モデル・状態空間モデル・異常検知(Advanced Python)
  • 上記本が出たので優先度は下がったかも。でも状態空間モデルは上記本にないのでまだ読む価値あり
  • 時系列分析で必要な知識の概要がほぼ網羅されており分野を俯瞰出来、Pythonで試しながら読み進められる。
    • 時系列データの特徴
    • ARIMA、VAR(GARCHはなし)をはじめとする時系列データの統計モデル
    • それを拡張している状態空間モデル
    • 状態空間モデルのエンジンとしてのベイズ推論(MCMCはなし)
    • 時系列異常検知
B2 実践 時系列解析
  • RとPythonを縦横無尽に使うなかなか無茶な本。だけど統計的な時はRが強いし機械学習ならばPythonが強く、時系列分析は両方の面があるので、無理に1言語にすることもないしな。
  • 時系列の前処理・EDA、ARIMAなどの時系列モデル、状態空間モデル、深層学習による時系列解析、ヘルスケア・金融・政府統計などの応用面など多岐にわたる解説とコード例がある。
  • 基礎を学ぶというよりも、他書である程度学んだ人がネタ探し、弱点補強的に読むと良いのではないかと思う。
C 経済・ファイナンスデータの計量時系列分析 いわゆる沖本本
  • 「沖本本」として定評がある教科書(私は読んでいないが岩波書店の『時系列解析入門』も定評があるが品切れ。あるいはその改訂版『Rによる 時系列モデリング入門』でも良いかもしれない)。
  • 基礎概念/ARMA過程/予測/VARモデル/単位根過程/見せかけの回帰と共和分/GARCHモデル/状態変化を伴うモデル、と重要な概念についての解説があります。状態空間モデルはないですがそれ以外の主だったところは全て押さえていると思います。
  • 難しいけれど章末問題(数理的な、コードを書く的な両方)を解くことで理解が深まる。というか昔はこれくらいしかまともな本がなかったので。やや難しいので、数学が苦手な方は他のコード例が豊富な本で慣れながら本書を読むといいと思う。
  • Rのみですが、章末問題を解いたコード例をQiitaに上げております 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第1章時系列分析の基礎概念-
B1 点過程の時系列解析
  • 地味。いわゆる時系列解析に似てそうで全然似ていない考え方が必要となる。データ分析本の推奨でまず出てこない。
  • だけどですよ、出版社の本書紹介から引用すると
    点過程の時系列とは,データがある着目するイベントの発生時刻の集合として特徴付けられるようなタイプの時系列である。実世界の様々な現象が点過程として表現することができ,例えば自然現象としては,地震,神経細胞のスパイク発火,遺伝子発現などが考えられる。さらに近年,人間の社会行動に関する様々な大規模データが蓄積され,それが利用可能になってきたことを背景として,金融取引,保険事故,人々のコミュニケーション,SNS上でのユーザーの活動等のデータを解析するために,点過程が用いられることが増えており,点過程の応用範囲は急速に拡大している。
  • そう、金融取引やSNSデータなど今後引き合いがめっちゃ増えるのに誰も注目しておらず和書類書もほとんどない。これは狙い目です。
  • 残念ながら100冊からは落としましたがイベント時系列解析入門ウェブデータの機械学習なども参考になるかと思います

2.3. 画像処理の2冊

  • あまり画像を取り扱ったことがないので、ペーパーですが一応
レベル 書名 概要
B2 PyTorch実践入門 ~ ディープラーニングの基礎から実装へ
  • 非常に評判が良いようです。PyTorchの入門書ですがコーディング分析事例は画像解析です。
  • PyTorchのみでなく深層学習自体にも図解でわかりやすい説明があります。後半は肺がんLunaデータを用いての画像解析ですが医学知識は必要ありません。
B1 ディジタル画像処理 改訂第二版
  • 本書すげぇ。「画像処理エンジニア検定エキスパート対応」という資格用テキストらしいのですが、この手の本にありがちな、大家の名前+弟子が走り書きで内容がない、ではなく、ディジタル画像についてありとあらゆる(と素人の私は思った)内容が掲載されている。
  • カメラレンズの構造やRGB、画像変換や行列、機械学習まで。画像データは一切扱わない、という人ならともかく、そうでない人ならば読んでおくと差がつくでしょう。

2.4. 音声処理の1冊

  • 度々申し訳ないですが音データについても実務経験がありません。準備として学んだものです。
レベル 書名 概要
B12 Pythonで学ぶ音声認識 機械学習実践シリーズ
  • 下記についてPythonコードつきで一通り学べます
    序章
    第1章 音声認識とは?
    第2章 音声認識の基礎知識
    第3章 音声処理の基礎と特徴量抽出
    第4章 音声認識の初歩─DPマッチング─
    第5章 GMM-HMMによる音声認識
    第6章 DNN-HMMによる音声認識
    第7章 End-to-Endモデルによる連続音声認識

2.5. 信号処理の1冊

  • 度々申し訳ないですが信号データについてもほとんど実務経験がありません。準備として学んだものです。
  • ディジタル信号は独特の処理が必要と知って網羅性がありそうで比較的わかりやすそうな本書を選んでみました。
レベル 書名 概要
B12 Python対応 ディジタル信号処理
  • Pythonコード例つきで下記のように一通り学べます
    第1章 序論
    第2章 離散時間信号
    第3章 離散フーリエ変換
    第4章 高速フーリエ変換
    第5章 ディジタルフィルタの基礎
    第6章 z変換
    第7章 ディジタルフィルタの解析
    第8章 周波数選択性ディジタルフィルタ
    第9章 FIRフィルタの設計
    第10章 IIRフィルタの間接設計
    第11章 IIRフィルタの直接設計
    第12章 2次元信号とフーリエ変換
    第13章 2次元ディジタルフィルタ

2.6. 地理空間の2冊

  • 例えば緯度経度は単なる数値として扱えてしまうけれど、国レベルのデータであればx-y平面ではなく球面(地球規模ならば平たく潰れた球)であることを計算に加味する必要がある
  • 狭い範囲でも近接した地域の効果により空間ラグなどを考慮する必要があり、地理空間は独特の扱いが必要
  • この分野はRの本が多いですが徐々にPython本も出てきている模様。
レベル 書名 概要
AB2 Pythonによる地理空間データ分析
  • Pythonではまだ類書が少なく貴重な1冊
  • 豊富なPythonコード例にて地理空間データの取り扱いについて一通り実行しながら学べます
    • QGIS(地理情報データを扱うシステムGISのオープンソース版
    • GoogleEarthEngine
    • OpenStreetMap(GoogleEarthは商用利用で要ライセンスなので、商用利用もフリーなツール)
    • GeoPandas(Pandasの地理空間版)
B1 空間統計学: 自然科学から人文・社会科学まで
  • 下記目次のように地理空間について一通り学べる
    • 1 .はじめに
      2 .空間データの定義と特徴
      3 .数学的準備
      4 .空間重み行列と空間的影響の検定
      5 .地球統計学
      6 .空間計量経済学
  • 「地理情報システム学会」にて、学会賞(著作部門)を受賞したとのこと

2.7. マーケティングの5冊

レベル 書名 概要
AB2 マーケティングデータ分析
  • 下記がPythonコードで試しながら学べる
    • 1. マーケティングにおけるデータ分析
      2. マーケティング分析のためのデータ
      3. 集計と可視化からデータを理解する
      4. 顧客の分析
      5. 商品の分析
      6. 店舗の分析
B1 マーケティング・エンジニアリング入門
  • マーケティングをする人向けの本のため、本書の後半はほぼ、データ分析の概説書となっている。
  • 下記目次例のように、マーケティングの各概念にデータ分析をどう適用するかというような内容
    • 第1章 マーケティング・エンジニアリングとは
      第2章 データの収集・活用の注意点
      第3章 市場の理解
      第4章 マーケティング反応の分析
      第5章 最適化と意思決定
      第6章 予測とシミュレーション
      第7章 感性とマーケティング
      第8章 施策の実施と確認
      第9章 今後のマーケティング・エンジニアリング
  • コンパクトにまとまっている良い本だが、やや難点あり気をつける必要はある
    • 「因果関係を表現する代表的な数理モデルである回帰分析」「回帰分析のように因子間の因果関係も同時に評価」とあるのはいただけない。相関と因果は違うという記述もない。
    • ランダムフォレストの解説で「森に見立てた大量データから」とあるが、たくさんの木のモデルの事を森と見立てているはず。ニューラルネットワークを「非線形予測モデル」、サポートベクターマシンを「非線形クラス判別」としているが、予測もクラス判別も行える。
    • 本文ではサラッとしか振れてないのに、参考文献にいきなり講談社機械学習プロフェッショナルシリーズの『深層学習』もあるが、機械学習の項目はちょっととってつけた感がある。
  • 類書が増えてきているので差し替えるかも
B1 需要予測の戦略的活用 ―マーケティングとサプライチェーンマネジメント(SCM)をつなぐ
  • 需要予測は統計や機械学習によるものだけが全てではなく、その全体像を目的別に示しています。
  • 需要予測の経営戦略の中での位置づけ、サプライチェーンとの関連、統計・機械学習による手法、データ管理、組織・人材面について書かれているので、需要予測PJの社内説得用のネタとしても使えるのかと思います。
B1 A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは
  • Amazon解説文のままですが、まさに下記の通りで必要十分な本かなと思います
    経営層やリーダー、データサイエンティスト、エンジニア、アナリスト、プロダクトマネージャーなど、企業の全関係者を対象として、その概念から実験を実施するためのプロセス、よくある落とし穴、オンライン実験をスケールさせるために必要なことまで、A/Bテスト、コントロール実験の詳細を解説する。
    Google, Amazon, Microsoft, LinkedInなどで実際に実践された経験から得られた教訓や落とし穴などがふんだんに盛り込まれており、データ駆動型の文化の確立、科学的な意思決定に必要なスキルを獲得できる。
AB 推薦システム実践入門 ―仕事で使える導入ガイド
  • 本記事著者青木は推薦システムを扱ったことなく、1つの知識として
  • 下記目次のとおり一通り学べると思います
    • 1章 推薦システム

      2章 推薦システムのプロジェクト
      3章 推薦システムのUI/UX
      4章 推薦アルゴリズムの概要
      5章 推薦アルゴリズムの詳細
      6章 実システムへの組み込み
      7章 推薦システムの評価
      8章 発展的なトピック

3. その他分析手法

3.1. 因果推論の5冊

レベル 書名 概要
A 「原因と結果」の経済学―――データから真実を見抜く思考法
  • まずはぜひこの1冊。
  • 前提知識不要で、相関と因果など間違えやすいところが身につく。データ分析、政策等のかなりの専門家でもかなり間違っている人がいる。因果推論を扱うならまずは本書の内容を頭に叩き込む事が一番重要だと思う。
  • 因果推論の基本の下記概念を数式なしで一通り知ることができます。
    • ランダム化比較実験(RCT)
    • 自然実験
    • 差の差分析
    • 操作変数法
    • 回帰不連続デザイン
    • マッチング法(傾向スコア)
    • 回帰分析
AB1 政策評価のための因果関係の見つけ方 ランダム化比較試験入門
  • 「政策評価のための」とはなっていますが因果推論一般にも適用できる内容です。
  • 『「原因と結果」の経済学』に代表的な分析手法が解説されていますが、なぜそんなに沢山あるのか?どういう時に使うのか?因果の信頼度は?など改めてわかります。
  • ランダム化比較試験のお話がメインですが、その他の因果推論手法の長所、短所の比較などもあり、迷子になりそうな時に戻る本として良いのではないかと思います。
AB1 因果推論の科学
  • なぜ因果ということを考える必要があるのかなど歴史を通じて現状までを解説した本。
  • ただ、「因果推論の入門に良い」という書評がありますが、この本をいきなり読んで理解できるのだろうか疑問。ある程度学んだ後に戻ってきて読むと興味深く読めると思う。
B2 つくりながら学ぶ! Pythonによる因果分析 ~因果推論・因果探索の実践入門~
  • Pythonで因果推論・分析をできる和書ではほぼ唯一(発刊当時)と思います。
B12 因果推論入門〜ミックステープ
  • 本書の特徴は
  • ルービン派、パール派に偏らず理論を網羅的に紹介していること。数式もありますがそれで押すのではなくコード例で理解を促していること。
  • 理論の解説がメインですがコード例が豊富。書籍内ではRコードですがサポートサイトにStataやPythonのコード例あり。
  • また本文内に類書との差別化として下記があり、本書を読めば因果推論の主だった手法を網羅できると言っているようです。
  • Imbens and Rubin (2015)(青木注『インベンス・ルービン 統計的因果推論』)は潜在アウトカムモデル、実験デザイン、マッチングと操作変数法については解説していますが、非巡回有向グラフ(DAG)、回帰不連続デザイン、パネルデータ、合成コントロール方については扱っていません。一方、Morgan and Winship (2014)は、DAG、潜在アウトカムモデル、操作変数法について解説していますが、回帰不連続デザイン、とパネルデータについては軽くしかふれられていませんし、Athey and Imbens (2017b)が過去15年間で因果推論における重要な革新と呼んだ合成コントロール法についても扱っていません。Angrist and Picheke (2009)は私のニーズにとても近いですが、私が極めて有用と考えている合成コントロール法やグラフィカルモデルについてふれられていません。
  • 本書まで学べば余程深く求められない限りひと段落マスターと言って良いのではないかと思います(本式にはインベンス・ルービンが必要だろうけれど

3.2. 異常検知の3冊

  • 製造業を中心に異常検知のテーマは結構ありますが、通常の機械学習の本では扱ってないことが多いです。「ホテリングのT2」とか、製造業の方は統計手法に詳しい方が多いので、こっちが知らないということを避けるために基本的なことは知っておこう。
レベル 書名 概要
B2 Pythonではじめる異常検知入門 ―基礎から実践まで―
  • ホテリングT2、k近傍法、One-Class SVMなど異常検知の基礎理論から、時系列異常検知までPythonコード例で学べます
B12(R) 入門 機械学習による異常検知―Rによる実践ガイド
  • Rの本だが解説が詳しいので挙げておきます。
  • 異常検知の第一人者である井出先生の定番本。類書が少なく、前著が出るまでは異常検知が必要ならばまず手に取る1冊。
  • 「Rによる実践ガイド」と副題があり、Rによるコード例もあるが、基本は理論の解説。ただ厳密な定義定理スタイルではなく概念の説明が主。
  • 井出先生の サポートページ の内容紹介が詳しくて参考になる。
C 異常検知と変化検知
  • 同じく第一人者の井出氏の本
  • サポートページ にあるように、『入門 機械学習による異常検知』の後続書と位置付けられより詳しく理論を解説している

3.3. ネットワーク分析の2冊

  • Pythonでも色々本が出ているがしっくりくるものがない(特殊ケースを扱っているようで入門的な俯瞰性がないので、Rの本とガチ本で
レベル 書名 概要
B12(R) ネットワーク分析 第2版
  • Rとはなりますがネットワーク分析で主要な方法をコード付きで学べます。
C ネットワーク科学: ひと・もの・ことの関係性をデータから解き明かす新しいアプローチ
  • ネットワーク分析のバイブル
  • この100冊に入れるべきかは微妙な気がしますが、SNSや感染症など現代的なテーマを扱うときには必須な技術なのでもっと取り上げられるべきだと思う
  • 下記目次のように本分野を網羅する重鎮バラバシに依るバイブル
    第1章 序論
    第2章 グラフ理論
    第3章 ランダム・ネットワーク
    第4章 スケールフリーの性質
    第5章 バラバシ・アルバート・モデル
    第6章 進化するネットワーク
    第7章 次数相関
    第8章 ネットワークの頑健性
    第9章 コミュニティ
    第10章 感染現象

3.4. スパースモデリングの2冊

  • 機械学習の本に少しだけ記載がありますが、しっかり学ぶのであれば下記の本など
レベル 書名 概要
B2 ITエンジニアのためのスパースモデリング入門
  • スパースモデリングの代表的なアルゴリズムであるLassoについてPythonコード付きで学べます
B12(R) スパース推定法による統計モデリング
  • コード例がRなものの、前著はどちらかというと動かしてみる重視ですが、本書はより理論について解説があり、理解が深まるかと思います

3.5. 強化学習の1冊

  • これも実案件経験がほぼないです。案件が来た時の前捌きとして読んでおります。
  • これだけでは実案件に対応できないのはわかりますが、最低限の知識として。
レベル 書名 概要
B2 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで
  • 本記事著者ときは初版を読んだが、初版が出てまもなく改版が出ている。
  • Pythonコード付きで強化学習の基本からDQNなど主要なアルゴリズムを学べる。Pythonを知っており、ある程度機械学習などをやったことがある人ならば最初の1冊にいいかも。
  • 著者によるサポートページicoxfog417/baby-steps-of-rl-jaが充実している。
  • C強化学習(第2版)
    • バイブル。私は初版しか読んでおらずあまり強化学習をしたことがないので一旦次点

3.6. ベイズ統計・ベイズ機械学習の2冊

  • ベイズもほとんど実践したことがありません。最低限は知っておこうという程度で恐縮ですが2冊を
レベル 書名 概要
AB2 Pythonで動かして学ぶ! あたらしいベイズ統計の教科書
  • データ解析のための統計モデリング入門』(みどり本)が有名ですがこの本はR系なのでやめました
  • ベイズ統計の基礎から、MCMCを用いたベイズ推計、一般化線形モデルの基本まで、PyMC3ライブラリを用いて実装しながら学べます
B2 Pythonではじめるベイズ機械学習入門
  • 前記書よりより深く、ベイジアンモデリングやベイジアンニューラルネットワークまでを学びます

3.7. 実証分析の2冊

  • 因果推論とも被る面がありますが、実証分析とは、抽象化した理論が現実の現象をうまく説明できているかを統計的に検証する、経済学の一分野のようです。ですのでデータ分析とも近いところです。
レベル 書名 概要
AB1 進化するビジネスの実証分析
  • ビジネスに活用される経済学とのことで実証分析がどのようにビジネスに適用されているかを例示しています。意思決定の支援がデータ分析ならば参考となる面が多いです。
    ビジネス実証分析の今
    需要の推定
    価格戦略
    カルテル・談合
    合併
    ネットワーク効果
    公共調達=【花薗誠(名古屋大学)】
B1 実証分析入門 データから「因果関係」を読み解く作法
  • 『実証分析のための計量経済学』と並んでたくさん推薦されている。『実証分析のための計量経済学』より本書は
  • 数値・数式例は少なめ、手法の紹介は多め
  • タイトルだけでも楽しいサブカル感爆発
    仮説検定(1): お前はもう死んでいる
    目的変数が質的変数の場合: 飛ばねぇ豚はただの豚だ
    ベイズ統計: ベイジアンは滅びぬ、何度でもよみがえるさ!
    などなどなど
  • 数式は最小限。コード例はなしなので、PythonやRなどを使うなら理論の名前から自分でライブラリを探す必要はある。(対応を解説する記事を書くかなぁ)

3.8. 機械学習以外(実験計画法の1冊、数理最適化の2冊、意思決定の数理1冊)

  • データ分析の範囲というかとするとちょと微妙というか範囲外ではありますが、持ち込まれた分析テーマが機械学習なのか実験計画法が適しているのか、数理最適化なのか、その他の数理手法なのかは最低限、見極めた方が良いと思うので、最低限のところを
  • 実験計画法
    • Wikipediaによると下記の通りで、データがあり機械学習アルゴリズムでということではなく、色々な条件があり最適解を……、などというときに効果的かと思います。

      実験計画法は、効率のよい実験方法を設計し、結果を適切に解析することを目的とする統計学の応用分野である。

    • AIで解決したい、と要望が来てもルールベースだったり実験計画法で解くべきテーマというのがあります。それを見極めるためにも基礎的なところは押さえておきたいです。
      - 数理最適化
      - 機械学習は誤差の最小化の意味での最適化ですが、売り上げ最大化とか、コスト最小化とか機械学習を用いずに最適化を求める分野がある。きちんと押さえておきたい
      - 意思決定の数理
      - ビジネスは意思決定の場なのだから機械学習をビジネス適用するのであれば意思決定に役立つテーマ設定が必要という話を冒頭でしました
      - 逆にいうと意思決定に役立てば機械学習でなくともよい&機械学習ではできず他の数理手法の方が適している場合がある
      - 数理最適化もそうなのだがそれよりもっと広く、微分方程式モデル、ゲーム理論、オペレーションズリサーチ、等々
レベル 書名 概要
AB2 Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析
  • 下記のような内容で、Pythonコード例月で学べます
    第1章 データ解析や機械学習を活用した分子設計・材料設計・プロセス設計・プロセス管理
    第2章 実験計画法
    第3章 データ解析や回帰分析の手法
    第4章 モデルの適用範囲
    第5章 実験計画法・適応的実験計画法の実践
    第6章 応用事例
    第7章 さらなる深みを目指すために
    第8章 数学の基礎・Anaconda・Spyder
B2 Pythonではじめる数理最適化 ―ケーススタディでモデリングのスキルを身につけよう―
  • 機械学習とはちょっと範囲外ですが数理最適化もビジネスでよく使われるので最近類書も増えてきました。ただ、なんのためにそれをやっているのかが掴みにくいところがあり、具体例とコード例の豊富な本書を選びました
  • 前半は、連立一次方程式や線形計画法の簡単な例で数理最適化の基礎とPythonコード例を学びます。
  • 後半はビジネスに近い例を解いていきます。
    第Ⅰ部 数理最適化チュートリアル
    第1章 数理モデルとは
    第2章 Python数理最適化チュートリアル
    第Ⅱ部 数理最適化のケーススタディ
    第3章 学校のクラス編成
    第4章 割引クーポンキャンペーンの最適化
    第5章 輸送車両の配送計画
    第6章 数理最適化APIとWebアプリケーションの開発
    第7章 商品推薦のための興味のスコアリング
B1 最適化手法入門
  • 数理最適化も昔から研究されている分野ですので良書がたくさんありますが、東大のOCWでも使われているということとPythonコード例ありとのことで本書を選びました
B12 Python意思決定の数理入門
  • 数理最適化の項でも申し上げましたが、求められている分析テーマが機械学習にハマるものと異なるものがあります。その場合に「わからない」ではなく、調べるための当たりをつけるために広く薄く知っておくというのが私のモットーなため、こういう広く浅い本を多めに読んでいます
  • Amazon書評で「実用的ではない」と低評価の方がいますがわかっちゃいない。「意思決定の数理」なんて広い分野を1冊でビジネスレベルに持ってけるわけがない。あくまでも自分のテーマに近いのがどの分野かと、次に学習を深めるためのガイドブックでしかなく、逆にそういうガイドブックを求めるための方の1冊
    第1章 はじめに
    第2章 戦略の微分方程式モデル
    第3章 基礎的な意思決定の数理的扱い
    第4章 ゲーム理論の基礎
    第5章 意思決定のための OR の基礎
    第6章 組合せ最適化による意思決定
    第7章 マルチエージェントベースモデリングによる意思決定
    第8章 強化学習による意思決定
    第9章 不確定性を含むゲームでの意思決定
    第10章 集団の意思決定
    第11章 意思決定とメカニズム・デザインの視点

4. データ分析のための数学・Python

4.1 データ分析のための数学(微積・線形代数・集合と位相)の5冊

レベル 書名 概要
B1 統計学のための数学入門30講
  • とは言うものの数学が必須だよね。大学で学んだから代替だいたいは分かるのだけど統計との関連が今ひとつ、、、ってな方に適しています。統計学でどのように使われているかを念頭に置いた、微分積分、線形代数の紹介。1冊で紹介しているので各内容の説明は薄め。
  • 最近は「機械学習のための数学」のような本が増えているのでそちらでも良いかもですが、流行りにのったやっつけ本?というようなちょっと不安な本もありますが、本書は数学入門書を多数書かれている先生の本で安心。
  • 一通り勉強した後の確認や、過去に勉強したが錆び付いている人の再起動、今学んでいることを統計学と結び付けたい人向け。
  • 講談社機械学習プロフェッショナルシリーズ『深層学習』の読み解きをした時に、数学でわからないところはほぼ本書に出ていました。
  • ただ、薄い本書に微分積分と線形代数を押し込めているので、初学者には厳しいと思います。微分積分と線形代数の入門書は鬼のようにたくさん出ているので、大学での微分積分、線形代数なんてまるでわからんって方は本書の前に、マセマなど大学1年生用の簡単な本から。
B1 これなら分かる最適化数学
  • 機械学習でも用いられる最適化に必要な(もののみの)微分積分、線形代数の解説。好著中の好著と思いますが、紹介されることが少ないので、これで差が付きます!
  • 機械学習・深層学習のための数学、と題した本が出ていますが内容は微分積分と線形代数の普通のテキストをかいつまんで式の羅列のみって残念な本が多い。機械学習は結局は、モデルを作る→正解との誤差を最小化する≒最適化!、なのでここに特化した本書が一番核心をついて分かりやすいと思います。
  • コンセプトは上記書「統計学の~」に似ているが本書は、より目的の最適化に特化しており、例題を解いていくと定着するようになっている。
  • 「最適化」という言葉がごっちゃでわかりにくいですが、機械学習は誤差を最小にする最適化、数理最適化はコストを最小にするなどの最適化となりどちらも「最適化」が必要です
B1 プログラミングのための線形代数
  • 微分積分は、傾きを求める、細かく分けて足し合わせる、ってなんとなく意味がわかるけれど線形代数って一体なんなんだ?
  • 線形代数の「意味」が分かる
  • 行列は写像だ!
B1 スタンフォード ベクトル・行列からはじめる最適化数学
B1 「集合と位相」をなぜ学ぶのか
  • 微積と線形代数は手を動かす労力を惜しまなければなんとかなると思う。でも集合と位相は「そもそも何をやっているのか?」が全くわからなくなる
  • 最初から読まなくてもよいと思う。以降で紹介する本のなかで、〇〇集合、位相〇〇などの沼にはまりかけたら本書を読むといいと思う。完全解決するわけではないが、ちゃんと意味があってそういった概念が導入されていることは分かる。私も泥んこになりながら格闘中なので大きなことは言えないが、統計学がセクシーな学問とするのであれば、集合・位相をマスターすることが、下記の分かれ目と思っている。
    • 一発屋のグラビアアイドルで終わるのか、女性にも一目置かれる素敵な女優になれるのか
    • 一発屋のアイドル歌手で終わるのか、男性にも一目置かれる素敵な俳優になれるのか
    • 人工知能に使われるデータ処理屋で終わるのか、人工知能にも一目置かれる素敵な課題設定者になれるのか

4.2. コーディングの3冊

  • プログラマなら言わずもがなな面もありますが、私はRからデータ分析に入ったこともありあえて挙げてみました
レベル 書名 概要
B2 Python 実践AIモデル構築 100本ノック
  • 100本ノックシリーズは多数出ており、百個の課題がありそれをPythonで解いていくものです。
  • 本書は分析手法ごとに1つずつ課題を解いていくので、頭の整理にも良いかなと思います。
  • 『[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践』を実践すればそちらでも良いかなと思いますが、こちらの方は手っ取り早く復習という感じですかね。
B2 Pythonで学ぶアルゴリズムとデータ構造 データサイエンス入門シリーズ
  • 機械学習ではないアルゴリズムの本です。
  • 機械学習と言っても教科書データのように綺麗なデータばかりではなく、通常のアルゴリズムを用いてデータ加工や探索が必要な場合があります。基本的なアルゴリズムは押さえておくと便利だと思います。

5. 資格・KAGGLE

5.1. 資格の2冊

  • 資格は特に不要かなと思いますが、みんながとっているものはどういうものなのかということは知っておく必要があるかなと思います。
レベル 書名 概要
AB1 深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版
  • G検定がDS関連の資格で一番広まっているのかな。持っている人が多いので話を合わせるためにも読んでおいて損はないかなと思います。
  • データ分析を専門にしている人でも自分の担当については詳しくなりますが、世の中一般ではここが問われているんだと知ることも必要かなと思います。新案件がどこからくるかわからないので。
  • (注)本記事著者青木はまだ受けてないっす
B1 日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック
  • 統計検定のテキストは要点の羅列で、教える気あんのかゴラァって感じだったのが、本気出したらやればできるじゃんって感じ。統計検定1級よりも広い範囲ではないかと言われる統計検定準1級向けのテキストかつ問題集なのですが、東大出版会統計学入門赤本より広い範囲(一部機械学習的な分野も含む)で、データ分析するための基礎として「こういうところを知ってなきゃだめだよ」という目安としては非常に良いのではないか。
  • 広範囲を1冊にしているため各項目の解説は要点のみとはなりますが、以前のテキストの羅列とは異なり、丁寧であり、章末問題で理解を確かめられます。いきなり本書をテキストとして学ぶのは無茶ですが、いろいろテキストで学んだ後に総整理や、漏れている項目の補強などに役立つと思います。
  • 必ずしも必須ではないですがこれだけ知っておくと強みになりますね。
  • (注)本記事著者青木はまだ受けてないっす

5.2. KAGGLEの3冊

  • Kaggleもねー。特に絶対必要というわけではないですが、案件が少ない方とか、簡単な案件の方とかは筋トレの要領で受けるのも良いのかも。そして特に特徴量エンジニアリングとか鬼ほど鍛えられますからね。
レベル 書名 概要
AB2 実践Data Scienceシリーズ PythonではじめるKaggleスタートブック
  • 前述『Kaggleで勝つデータ分析の技術』の弟分的位置づけ。代表的なコンペティションであるKaggleに勝つというよりもまず始めてみましょうという導入本。
  • 類似の本に『データサイエンスの森 Kaggleの歩き方』がありますが、Kaggle自体の紹介が主で分析入門の記載は少なく、本書を読めばこちらの本は不要かと。
B2 Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ
  • 私が読んだのは洋書版(英語は弱いのですが大部分コード例なので問題ないと思って)
  • 大部分はPythonコード例。
  • 『Kaggleで勝つデータ分析の技術』とほぼ同レベルで、本書はコード例メイン。
  • Kaggleに特化というよりも実際のデータ分析に役立つTips集といった感じ。
B2 Kaggleに挑む深層学習プログラミングの極意
  • テーブルデータではなく、画像分類・検索と自然言語処理中心の本
  • 画像分類や自然言語処理を行う必要が出た場合、テキスト例は「きれいな」分かりやすいデータばかりなので、Kaggleのむずいデータに取り組むと役立つと思う、その準備運動として

改訂履歴

  • 2023-11-12
    • 「掲載冊数」に「次点」を追加
    • 1.4. プロジェクト全体像の4冊
    • 1.5. 分析手法-統計学の6冊
      • 『基礎から学ぶ統計学』を採用、『バイオサイエンスのための統計学』を次点に
    • 1.8. 評価指標・XAIの4冊
      • 『解釈可能なAI』を「未読だが100冊候補」に追加
    • 1.9. 可視化の6冊
      • 『ハーバード・ビジネス・レビュー流 データビジュアライゼーション』の概要に、Python/matplotlibでの実装例記事へのリンクを追加
    • 2.2 時系列分析の5冊に「未読だが100冊候補」を追加
      • 『Python時系列分析クックブック I: 前処理』
      • 『Python時系列分析クックブック II: モデル・機械学習』
    • 2.6. 地理空間の2冊
      • 『Pythonによる地理空間データ分析』を採用、『Rではじめる地理空間データの統計解析入門』を次点に

関連記事

  1. 上下巻は1冊とカウントしているので正確には100冊を超えている

  2. 評判良いものの近刊あるいは最近の刊行でまだ読めていない。または定評のある本だが単に私が読めておらずもしかしたら100冊が入れ替わるかもの候補です

  3. 「未読だが100冊候補」と入れ替えましたが、特色があり落とすには惜しく「次点」として残した本

624
765
5

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
624
765