Help us understand the problem. What is going on with this article?

データサイエンス、データ分析、機械学習関連の本

必読10冊を更新。データサイエンス、データ分析、機械学習周りでおすすめ図書10選のような記事は良く見ますが、網羅的な紹介記事はあまり見かけないので自分が欲しいと思い書きました。私よりたくさん読んでいる方は多々いらっしゃると思いますが、記事を書いてくださいな。

本記事の対象と想定

  • Qiitaはプログラマやコンピューター系技術者のための記事と思ってます。ので研究者は対象にしていません。
  • 理論より手を動かす
    • 理論をないがしろにしてはいけない。ただ、数式を恐れて何もしなくなってしまうより、まず手を動かしてコードを書いてデータを扱うことにより理解が進むことがある
    • 理論ガチ無視で人工知能万歳!と無着苦茶だけど声がでかいだけでOKみたいな人を駆逐したい
  • ので、手を動かした後に理論もフォロー
    • 機械学習系って、研究成果が簡単なライブラリやAPIで誰でも試せるようになって距離が近くなっているので訳わかんなくなってるけど、研究成果を実際の問題に適用するのが大事
    • だからさ数式に恐れずまずトライしようよ
  • 紹介書籍が多くなりすぎたので読む順番の参考マップデータ分析関連(データサイエンス、データ分析、機械学習)書籍マップを作成しました。

ってな感じです。

スパムの恐れありと一旦公開を閉ざされましたが、事務局に相談したところ誤解が解け解除されました。このような紹介記事は少なく、初心者向けでこれだけまとまっているものないと自負しております。ただ、アソシエイトに対し文章が少なめなので要注意との指摘も受けておりその点は今後も注意してまいります。

反論があれば遠慮なく Qiitaコメントか、 https://twitter.com/aokikenichi にお願い致します。

ざっくりとした難易度

  • 初級:前提知識ほぼなし。数式不要。プログラミング不要。
  • 中級:初級を前提知識とする。理論の本の場合は微積・線形代数程度の数学の知識があれば理解に役立つ。ツールを扱う本の場合はRかPythonを書くと理解に役立つ。
  • 上級:中級を前提知識とする。微積・線形代数程度の数学の知識が十分ないと理解は難しい。中級程度の本でRかPythonを書いた経験を前提とする。

データ分析をするための最低限の10冊

まず試してみる(R向け)

  • 初級・中級 『Rによるデータサイエンス データ解析の基礎から最新手法まで 第2版』 金明哲著
    • Rを用いるなら定番の本だと思う。代表的な統計・機械学習手法を実行可能。 数式抜きで解説している本だと結局分からないが理論的は本は難しい。ので、手を動かして実際に分析してみるのがよいと思います。
    • この本では理論はほぼ解説していないので、まず習うより慣れろって感じです。
    • 最近類書がたくさん出ていますが私が知るかぎりでは手法の網羅度では本書がよいと思います。
    • 本書の詳しい解説を書きました。SE, PG系の方がデータ分析、機械学習をやる必要が出た時にまず手にとるべき一冊
    • 機械学習系のパッケージを統合したcaretを用いて本書のコードを実行した記事を書きました 『Rによるデータサイエンス』をcaretで再現する
    • Pythonも類書たくさん出ているけど、好評のまま2版が出た
      • 『[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)』あたりでしょうか?
  • 初級・中級『RとStanではじめる ベイズ統計モデリングによるデータ分析入門
    • 前著が機械学習よりとするとこちらは統計モデリングかつベイズ統計の本。
    • 理論の解説もあり、初学にはかなり難しいと思いますが、本書もコード例が豊富なのでこれもやはり習うより慣れろだと思います。
    • 統計モデリングだと後述の『データ解析のための統計モデリング入門』(いわゆる「みどり本」)が定番とされてきましたが、みどり本はWinBUGSなので、習うより慣れろ派としては、現在主流のStanを扱い、作図も含めたコード例が豊富なこちらのほうが導入にはよいと思います。
    • これもPythonについて類書たくさんありますので、Python派の方はそれらを、、、

まず試してみる(Python向け)

理論の概要と数学基礎を並行で固める

  • 中級 『統計学のための数学入門30講 (科学のことばとしての数学)』永田靖著
    • とは言うものの数学が必須だよね。大学で学んだから代替だいたいは分かるのだけど統計との関連が今ひとつ、、、ってな方に適しています。統計学でどのように使われているかを念頭に置いた、微分積分、線形代数の紹介。1冊で紹介しているので各内容の説明は薄め。
    • 一通り勉強した後の確認や、過去に勉強したが錆び付いている人の再起動、今学んでいることを統計学と結び付けたい人向け。
    • 講談社機械学習プロフェッショナルシリーズ『深層学習』の読み解きをした時に、数学でわからないところはほぼ本書に出ていました。
    • ただ、薄い本書に微分積分と線形代数を押し込めているので、初学者には厳しいと思います。微分積分と線形代数の入門書は鬼のようにたくさん出ているので、大学での微分積分、線形代数なんてまるでわからんって方は本書の前に、マセマなど大学1年生用の簡単な本から。
  • 中級『これなら分かる最適化数学―基礎原理から計算手法まで』金谷健一著​
    • 機械学習でも用いられる最適化に必要な(もののみの)微分積分、線形代数の解説。好著中の好著と思いますが、紹介されることが少ないので、これで差が付きます!
    • 機械学習・深層学習のための数学、と題した本が出ていますが内容は微分積分と線形代数の普通のテキストをかいつまんで式の羅列のみって残念な本が多い。機械学習は結局は、モデルを作る→正解との誤差を最小化する≒最適化!、なのでここに特化した本書が一番核心をついて分かりやすいと思います。
    • コンセプトは上記書「統計学の~」に似ているが本書は、より目的の最適化に特化しており、例題を解いていくと定着するようになっている。
  • 中級・上級『統計学入門 (基礎統計学)』東京大学出版会(いわゆる「赤本」)
    • 本書が理論理解入門の定番とされてますが、やや難しいです。ただ、分からない概念が出てきたときに本書に戻ると解説されていることが多いです。
    • ググれば分かりますし、統計学入門なら別の本がたくさんありますが、「これが共通言語」という意味では手元に置いておいたほうがよいと思います。
  • 中級・上級『はじめてのパターン認識』平井有三著(いわゆる「はじパタ本」)
    • 本書が理論入門の定番とされている、と思う。深層学習については言及がないが、機械学習で用いられる手法についてほぼ網羅されている。後掲PRMLを勧める方が多いが、研究者でもない限りいきなり読んでも挫折すると思うのでまずは本書からが良いと思う。
    • 本書と前述の『Rによるデータサイエンス』を行ったり来たりしながら、ではないでしょうか、数好きに弱い人が慣れていくには。
  • 深層学習 (機械学習プロフェッショナルシリーズ)』講談社機械学習プロフェッショナルシリーズ(いわゆる「深層学習青本」)

実技を学ぶ

  • 前処理大全
    • 今まではデータ分析、機械学習のいわゆる「面白いところ」の理屈についての本でしたが、実業務ではデータの汚さと格闘することになります。
    • データ分析の8割は前処理、などと言われる割にはまとまった解説書がなかった。本邦初だろう。必読。
    • 「前処理○○」という類書がありますが、本当に前処理について網羅的に丁寧に記述しているのは本書。
    • データの集計・結合・分割・生成などの整形の大全。1つの課題に対し、SQL、Python、Rの3言語でどう対処するかのコード例、また言語による得手不得手の明示。
    • ググればたいてい見つかるものだけど、思い込みで局所解に陥っていたら効率の悪いコードにハマっているかも。一度正解を眺めておくだけでも深みにハマることを避けられると思う。
  • 欠測データ処理:Rによる単一代入法と多重代入法(統計学One Point)
    • 機械学習アルゴリズムによっては欠測値は特に処理しないでそのまま扱えることも多いけど、そうでない場合もある。そんなとき欠測値は厄介なのでみんな適当に処理しがち。
    • 結構しっかりした統計の本でも「欠測値があるデータは除くこと」、「平均で埋める」などとしていることが多いが、
      • むやみにデータを除くと分散などが歪む
      • 適切な値で埋めないと分散が小さくなる
      • 正しく埋める方法がある
    • ことをRコードを示しながら丁寧に解説している。日本の統計の杜撰さが話題になってますが意図して、せずに関わらずビジネスのデータは欠損が多い。今後非常に重要になってくるはずです。今のうちに学ぼう。
  • Kaggleで勝つデータ分析の技術
    • 爆売れしているらしい。そら売れるだろう。キャッチーな「Kaggleで勝つ」に加えて内容がいいもの。
    • Kaggle名人(Masterなど)がドヤ顔せず丁寧に手の内を明かしてくれている。
    • データの前処理、アルゴリズム選定、パラメータ設定等あるいみすべて。
    • Kaggleで勝つための小細工もあるが、Kaggleなんてする気ねぇという気質の分析者にも実務で得るところ多いはず。
    • いやーこんなのが日本語で数千円で読めるなんてすごい時代になったなー昔なんて洋書か大部な数式だらけの本しかなかったんだぜ。

その他10冊以外は後述だけど迷い道くねくね

  • 数学の学び方補足
    • 「わかる○○」的な本で微積・線形代数を一通り→「統計学のための数学入門30講」で復習。
    • プログラミングのための線形代数
      • 微積は「傾き」を出して誤差を減らしていくってことでまだイメージがしやすいけど、線形代数がどうデータ分析に役立つかわかりにくい。線形代数って何?について散歩程度に読むと得るところ多い。
    • プログラミングのための確率統計
      • 分布、検定、ってなんでたくさんありいつどのようにつかうのか。同時確率、周辺確率とはなんなのか。これも散歩程度に読むと得るところが多い。
    • 統計学のための数学入門30講』『これなら分かる最適化数学』に関する詳しい詳解の記事を書きました データサイエンス、データ分析、機械学習に必要な数学
  • その他用途に応じて1冊
    • 統計モデリング、MCMCなら
      • データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
        • データの構造をしっかり見極める統計モデリングとなんか答え出ればOK的な機械学習の違いってあまり議論されず、統計=機械学習的な人が多いけど、統計側でデータをしっかり見極めたいというなら基本中の基礎中の入門!だったけど『RとStanではじめる ベイズ統計モデリングによるデータ分析入門』も出たし好みなのかな。
    • 時系列分析なら
      • 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)
    • 因果分析
      • 「原因と結果」の経済学―――データから真実を見抜く思考法
        • 研究者同士ならともかく、ビジネス用途でデータ分析を行う場合、クライアントは相関と因果関係をごっちゃにしている場合がほとんど。その説明のためにしっかり理解しておこう。
    • 自然言語処理なら
      • 自然言語処理 (放送大学教材)
    • あるいは技術の広がりを知っておくなら
      • 岩波データサイエンスシリーズVol.1-Vol.6

差をつけるための10冊

あまり目をつけられてない分野、簡単だと誤解されスルーされがち、だけれども破壊力満点の10冊

  • データ視覚化のデザイン

    • データビジュアライゼーション(データ可視化)の入門書です。
    • 著者はTableauのコンサルティングがご専門のようですが広くデータ分析での可視化にもそのまま適用できる本かと思います。
    • やってはいけないことのうち、詰め込むな削れ、はいたいところ疲れたと思う方も多いのではないでしょうか。
  • Pythonではじめる教師なし学習

    • 教師あり学習が主で、教師なし学習は添え物的に扱われがちですが、実際のビジネスにおいてはデータがないことがかなりある。
    • 次元削減、以上検出、クラスタリングから深層学習を用いた手法、時系列クラスタリングまで、教師なし学習の代表的な手法をコード付きで丁寧に解説している。
  • 政策評価のための因果関係の見つけ方

    • そうなんですよ因果関係なのです。
    • データ分析の入門で「相関と因果は違う」と習うのですがその後因果関係については手薄。ただ、ビジネスにおいて「完璧な予測モデルが出来ました!来月の売上が20%下がります!」と報告したらアホかと呆れられるでしょう。なぜ下がるのか、どの説明変数が聞いているのか、そしてそこに因果関係があるのか。
    • 因果関係が重視される日がもう目の前まで来ているのです。
    • ノーベル賞受賞のエステル・デュフロの著作であり、ランダム化比較試験のバイブルとされているらしい。
    • 因果関係を厳密に検討する「ランダム化比較試験」から簡便だが間違えやすい「前後比較」までの長所短所がわかりやすく解説されている。特にpp.130-131の「実験的方法・準実験的方法の整理」の評、「実験的方法・準実験的方法の選択基準」のチャートは必見でしょう。
  • ゲーム理論・入門 新版--人間社会の理解のために

    • データ分析と違うじゃん!って感じですが今流行りのSHAPの原理たるシャープレイ値はゲーム理論の概念です。シャープレイ値についても本書ではわかりやすく解説しています。
    • 本書はゲーム理論について日本の代表的な研究者である岡田氏の著作であり、研究を志すならばバイブルとなっている『ゲーム理論 新版』の弟分的位置づけで初学者にも分かりやすいです。
    • 経済学と機械学習の融合もちらほら耳にするようになってきました(研究ではがち進んでいるらしい)が経済学側の融合のインターフェースとなるのはゲーム理論になるかと思っています。
  • ディジタル画像処理[改訂第二版]

    • 本書すげぇ。「画像処理エンジニア検定エキスパート対応」という資格用テキストらしいのだが、この手の本にありがちな、大家の名前+弟子が走り書きで内容がない、ではなく、ディジタル画像についてありとあらゆる(と素人の私は思った)内容が掲載されている。カメラレンズの構造やRGB、画像変換や行列、機械学習まで。画像データは一切扱わない、という人ならともかく、そうでない人ならば読んでおくと差がつくでしょう。
  • あと5冊どれにしよう、、、


データサイエンス・機械学習のための​数学

微分積分、線形代数

集合、位相

データ分析に限らず工学系の数学入門となると、微分積分、線形代数、確率統計なのだがそこからもう一段上に行く、あるいは各分野をもっと深めるとなると「沼」にはまる。集合、位相だ。現代数学の礎となっているのだが理解がしづらく入門書からはほとんど省かれている。そしてガチな世界に入るならその沼を通る必要がある。数学の基礎を固めるため工業用ダイヤモンドの如くガチガチで光り輝いているのだが、初心者が通ろうとすると沼となる。連続や含む含まれないなど当たり前すぎることを難しい概念で言い直す、3次元空間でのイメージがしにくい(できない)、具体的な数や図形で捉えられない抽象の豪雨。なんでこんなことを学ばなければならないのだろう。!!!

  • 数学ガール ポアンカレ予想
    • ポアンカレ予想の理解に必要な準備の中で、距離の世界と位相の世界の橋渡し≒位相をなぜ考えるのか、の説明があり、一番わかり易いと思う
  • 「集合と位相」をなぜ学ぶのか
    • 最初から読まなくてもよいと思う。以降で紹介する本のなかで、〇〇集合、位相〇〇などの沼にはまりかけたら本書を読むといいと思う。完全解決するわけではないが、ちゃんと意味があってそういった概念が導入されていることは分かる。私も泥んこになりながら格闘中なので大きなことは言えないが、統計学がセクシーな学問とするのであれば、集合・位相をマスターすることが、下記の分かれ目と思っている。
      • 一発屋のグラビアアイドルで終わるのか、女性にも一目置かれる素敵な女優になれるのか
      • 一発屋のアイドル歌手で終わるのか、男性にも一目置かれる素敵な俳優になれるのか
      • 人工知能に使われるデータ処理屋で終わるのか、人工知能にも一目置かれる素敵な課題設定者になれるのか

数学余談

  • 物理数学の直観的方法―理工系で学ぶ数学「難所突破」の特効薬〈普及版〉 (ブルーバックス)
    • 物理数学の入門書というか既存の教科書に困った人への手助けの本。発売当時村上春樹の『ノルウェイの森』を抜いたことがあるという伝説の本。物理数学の本だが、テイラー展開、行列と固有値、位相空間、情報理論とエントロピーなどの章、節があり、そのあたりを悩んでいる方には参考になると思います。
  • 一般には「線形代数」だけどガチな本だと「線型代数」と表記している事が多い。ガチに憧れて「線型」と私は表記していましたが、紹介している本との表記ゆれがめだつので直しました。

統計学

  • 初級『とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた―』石田基広著

    • 表紙が私は苦手なのですが、分かりやすい入門書を多数執筆している著者で、本書も分かりやすいです。
  • 初級『その数学が戦略を決める (文春文庫)』文春文庫

    • 数学がビジネスや社会の問題にどう適用されているか、のような話し。大部分は重回帰の話し。
  • 初級・中級『統計学が最強の学問である』、『統計学が最強の学問である[実践編]---データ分析のための思想と方法』西内啓著

    • ビジネスにその手法がなぜ必要なのかが分かります。
  • 初級『推測統計 はじめの一歩―部分から全体像をいかに求めるか? (ブルーバックス)

    • 品切れ?絶版?なのが残念。でもブルーバックスに統計学入門の類書がたくさんあるからそれでよいと思う。
  • 中級『プログラミングのための確率統計』堀玄、平岡和幸著

    • 確率・統計の「意味」が分かる。題名の「プログラミング」はほぼ関係ない。簡単にだが「カルマンフィルタ」なども紹介されている。 確率は面積だ!
  • 中級『バイオサイエンスの統計学

    • 隠れた名著。バイオサイエンスと題されているが他の分野でも十二分に役に立つ。相関係数、p値などそれぞれが散布図だとどういうイメージなのか。また、他群検定などは類書にあまり載ってない既述が多数ある。数理的な本でイメージが取れないならば本書で散布図をざっとみるだけでかなり理解が進むと思う。
  • 中級『統計思考の世界

    • 前述の『プログラミングのための確率統計』と同じく、確率統計の「気持ち」を解説してくれる本。
    • 『プログラミングのための確率統計』が細かなテーマを掘り下げるのに対し、本書は俯瞰を重視している。
  • 自然科学の統計学(基本統計学)

    • 東京大学出版会の統計学3部作として有名です。本書は、自然科学系の実験データに関して取り扱っている。
    • 最小二乗法、最尤法、適合度検定、検定力と標本サイズ、質的データ、ベイズ推定、確率過程、乱数の性質など非常に重要な概念を扱っているが盛りだくさんすぎて消化しづらいかも。一読後手元に置き、必要に応じ再読という使い方になると思います。
  • 人文・社会科学の統計学 (基礎統計学)

    • 東京大学出版会の統計学3部作として有名です。本書は、アンケートなどの社会調査、経済(時系列)データ、心理テストなどのデータ分析を扱っている。基本的な内容を網羅的に扱っていると思う。ビジネス系のデータ分析で、アンケート調査や経済時系列データを扱うのであれば入門としてよいのかも知れない。
    • ただ、残念ながら内容が古い。「GNP」はすぐGDPと分かるからいいとして、「IBMカードの文字数制限」など???な内容があり、基準などが変わる経済指標で知らないうちに間違った古い知識を身に着けてしまう怖さがある。
    • ただ、経済指標や時系列分析の本をいろいろ読んだ後に本書を読むと、あー本書にまとめて書いてあるじゃんか、となったので、初期にざーっと読むのは価値があると思う。
  • 辞書的『統計クイックリファレンス 第2版』オライリー・ジャパン

    • 辞書としてだが、一読後あまり使ったことなく、、、
  • 新版 統計学のセンス ―デザインする視点・データを見る目― (医学統計学シリーズ1)

    • 医学統計学シリーズですが、医学以外でもデータ分析をする人は必読と絶賛される方もいらっしゃいます。ただ私はそれほどとは思いませんでした。
    • ノンパラメトリックの検定の記述についてhttps://twitter.com/h_okumura/status/1067353061310455808こんな指摘もあり、また例示も(医学統計学シリーズなので当然ながら)医学を知らないと理解しづらいものが多く、少なくともデータ分析をする人に向け強く勧めるほどの本ではないと思います。
    • もちろん、気づきづらいところ、間違えやすいところに丁寧な解説があるので、読む価値はあると思いますが、ある程度実力をつけた方が補強として参考に読む程度かなと思います。
  • 推奨

    • 初級の本は何かお好きなものを。

統計学余談

多変量解析

統計モデリング

時系列分析・状態空間モデル

時系列分析

時系列分析は「統計モデリングの一種」でよいのだろうか。時系列データは独特の特徴があるので、時系列分析が不要な方はスルーでよいと思います。

​​

状態空間モデル

因果分析

  • 初級 「原因と結果」の経済学―――データから真実を見抜く思考法 中室牧子、津川友介著
      • 前提知識不要で、相関と因果など間違えやすいところが身につく。データ分析、政策等のかなりの専門家でもかなり間違っている人がいる。因果推論を扱うならまずは本書の内容を頭に叩き込む事が一番重要だと思う。
  • 初級『データ分析の力 因果関係に迫る思考法 (光文社新書)』伊藤公一朗著
    • 『「原因と結果」の経済学』より、分析手法を広めに解説している。とくに分析らしい分析をしなくても強力な「集積分析」などビジネスにもかなり活用できると思う。
    • この2冊を読んだら後述の『実証分析のための計量経済学』に進んでもよいと思う。
  • 中級(後述)『岩波データサイエンス Vol.3』 因果推論

  • 初・中級『実証分析のための計量経済学

    • 経済学系の本、サイトで推奨されている。計量経済学にも理論を追求する分野と実証分析として具体的な問題を解決するという分野があり、本書は後者。
    • 重回帰を中心に因果関係など複雑な社会上の問題を解き明かしている。
    • 数式は最小限。コード例はなしなので、Rなどを使うなら理論の名前から自分でライブラリを探す必要はある。
  • 初・中級『実証分析入門 データから「因果関係」を読み解く作法

    • 『実証分析のための計量経済学』と並んでたくさん推薦されている。『実証分析のための計量経済学』より本書は
      • 数値・数式例は少なめ、手法の紹介は多め
      • タイトルだけでも楽しいサブカル感爆発
        • 仮説検定(1): お前はもう死んでいる
        • 目的変数が質的変数の場合: 飛ばねぇ豚はただの豚だ
        • ベイズ統計: ベイジアンは滅びぬ、何度でもよみがえるさ!
        • などなどなど
    • 数式は最小限。コード例はなしなので、Rなどを使うなら理論の名前から自分でライブラリを探す必要はある。
  • 初中級『効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

    • ここまでは概念、理論の説明だったので、実際コードを動かして試す本を。
    • まずはR版。因果推論の代表的な手法についての丁寧な解説とともにRコード例が豊富。
  • 初中級『つくりながら学ぶ! Pythonによる因果分析

    • 続いてPython版。こちらは『効果検証入門』よりも範囲が広く因果推論とともに因果探索も扱っている。日本語のコード例の付きの本としては貴重な、LiNGAM、ベイジアンネットワーク、機械学習による因果推論、深層学習による因果探索も扱っている。
    • Amazon書評で1をつけている方がおりますが、本書を読んでいない全く的外れ論外の評。
    • R『効果検証入門』とPython『Pythonによる因果分析』の違いは
      • 前者は因果推論にしぼり理論も丁寧に解説
      • 後者は因果分析(因果推論と因果探索)について広く俯瞰するイメージで解説は少なめ
  • 中上級『調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

      • 因果推論の「赤本」として必読本に挙げられている。
      • 前著までは手法の紹介が主で理論は薄めなので、理論的に考える場合の入門として。
  • 中上級『統計的因果探索 (機械学習プロフェッショナルシリーズ)

    • 因果関係自体を探そうという因果探索の注目の新しい手法LiGAMの発案者自身の解説書。機械学習プロフェッショナルシリーズなので数式できちんと理論を抑えたい方に。
  • 関連記事エビデンスベースド

ベイズ統計

異常検知

  • 入門 機械学習による異常検知―Rによる実践ガイド
    • 異常検知の第一人者である井出先生の定番本。類書が少なく、異常検知が必要ならばまず手に取る1冊。「Rによる実践ガイド」と副題があり、Rによるコード例もあるが、基本は理論の解説。ただ厳密な定義定理スタイルではなく概念の説明が主。
    • 井出先生のサポートページの内容紹介が詳しくて参考になる。

スパース推定

データサイエンス

前処理・データクレンジング

  • 既述

機械学習

  • 初級『実践Data Scienceシリーズ PythonではじめるKaggleスタートブック
    • 前述『Kaggleで勝つデータ分析の技術』の弟分的位置づけ。代表的なコンペティションであるKaggleに勝つというよりもまず始めてみましょうという導入本。
    • 類似の本に『データサイエンスの森 Kaggleの歩き方』がありますが、Kaggle自体の紹介が主で分析入門の記載は少なく、本書を読めばこちらの本は不要かと。
  • Approaching (Almost) Any Machine Learning Problem
    • 洋書なのだが大部分はPythonコード例。『Kaggleで勝つデータ分析の技術』とほぼ同レベルで、本書はコード例メイン。英語が苦手ならば(私とか)『Kaggleで勝つデータ分析の技術』を読んだ後に読めばだいたい理解できる。Kaggleに特化というよりも実際のデータ分析に役立つTips集といった感じ。
  • 初中級『機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践
    • 機械学習モデルにそのままデータを投入すればよいわけではなく特徴量のうまい調理方法がありそれは特徴量エンジニアリングと呼ばれる
    • 既述の『前処理大全』『Kaggleで勝つデータ分析の技術』にも一部言及があるが本書は特徴量エンジニアリングに特化した本。
    • 数値データの対数化等の加工、自然言語処理でのBoW、カテゴリデータの扱い、次元削減、k-means、深層学習での画像特徴量の抽出など基本だが重要な概念をコード例付きで詳しく解説している。
  • 初級・中級『入門 機械学習』オライリー・ジャパン

    • Rによるコード例付き。通常の機械学習の一歩手前ぐらい。説明は詳しいが分野が偏っているので、合致すれば良いのだろうが次の「Rによるデータサイエンス」を実施すれば本書は不要。
  • 初級・中級『データマイニング入門』豊田秀樹編著

    • 「Rによるデータサイエンス」にない、ベイジアンネットワーク、潜在意味解析がある。
  • 初級・中級『集合知プログラミング』オライリー・ジャパン

    • Pythonで実行しながら学ぶ。SNSデータの活用などが主。
  • 上級『パターン認識と機械学習 上』『パターン認識と機械学習 下』C.M.ビショップ

  • 推奨

    • 『データサイエンティスト養成読本』で俯瞰的に眺め、『Rによるデータサイエンス』で一通り手法を試したあと、『はじめてのパターン認識』で理論をさーっと見渡す
      • 分からなければ『これなら分かる最適化数学』などで鍛える
      • 分かれば講談社機械学習プロフェッショナルシリーズなどで必要な分野を学ぶ

シリーズ

​​​​

深層学習

  • イラストで学ぶ ディープラーニング (KS情報科学専門書)』山下隆義著
    • 導入には良いが結局数式を追わないと分からない。Pythonのコード例あり(未実施)。
  • ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
    • ディープラーニングよりもその基礎のニューラルネットワークの解説が中心。数式の本が難しく、フレームワークでなぞるだけでは物足りない方が、原理をしっかり理解したい場合の導入としてちょうどよい本と思う。前記「イラストで」よりも本書のほうが分かりやすい。
  • 機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)

      • 「これならわかる」「理論を初めて学ぶ人はもちろん、今度こそ理解したい人のために」とのことで、上記『深層学習』より優しいかと思いきや、むしろ難しいのではないかと思われるガチ数学(ごめんなんさい本当にガチの人から見たら優しいのかもしれない)。
      • 本書は『深層学習』の入門版というよりも、最近の動向(深層強化学習ほか)も追加した更新版と捉えたらよいのかもしれない。
      • ということで、読みながら難しいところメモする、機械学習スタートアップシリーズ『これならわかる深層学習入門』の学習、を書き出しています。
      • 第1章 はじめに
      • 第2章 機械学習と深層学習
      • 第3章 ニューラルネット
      • 第4章 勾配効果法による学習
      • 第5章 深層学習の正則化
      • 第6章 誤差逆伝搬法
      • 第7章 自己符号化器
      • 第8章 畳み込みニューラルネット
      • 第9章 再起型ニューラルネット
      • 第10章 ボルツマンマシン
      • 第11章 深層強化学習
      • 付録A 確率の基礎
      • 付録B 変分法
  • 実践GAN ~敵対的生成ネットワークによる深層学習~

    • 深層学習はUpdateが早くて特に注目技術ほど研究者の競争が熾烈なのか早い。驚きを持って迎えられたGANも早すぎてついていけなったのだが、本書によりGANの基礎から約一年前までですが研究の進展も分かる。数式は控えめなので理論を精緻に理解するとまでは行きませんが(引用文献を読めばいい)、コード例が豊富で分かりやすいです。
    • 出版社のページにかなり詳細なページ見本もあります(見開き15箇所で計30ページ分も)

深層学習のフレームワーク

研究者なら0から深層学習を実装する必要があるかもしれませんが、それを使う技術者&ユーザーはフレームワークを用いることになると思います。フレームワークはたくさんあります。ちょっと古いですが深層学習フレームワークヒッチハイクガイドVer2.0参照。

TensorFlow

Chainer

  • 『Chainerで作るコンテンツ自動生成AIプログラミング入門』
      • 理論の解説はほんの少しだけ。
      • 自動生成に的を絞って実装例を紹介している。
        • 超解像画像の生成、画像の自動生成、画像のスタイル変換、文章の自動生成、意味のある文章の自動生成、機械翻訳、画像のキャプションの生成
  • 『Chainer v2による実践深層学習』
    • 『自動生成本』よりも理論解説が多め。
    • 私は自動生成に興味があるので『自動生成本』を主に実施していますが、理論を一つずつ実装して試してみたいのならば本書の方がよいかも。

強化学習

テキストマイニング、自然言語処理

首都大学東京小町研推奨の本

上記以外

  • Rによるテキストマイニング入門

    • Rの基礎説明、RMecabによる分かち書き(文章から単語に切り分ける)、ウェブからのテキスト収集、テキスト分類、Twitterタイムラインの分析など。話題のトピックモデルについても数ページながら言及あり。
    • word2vecなど深層学習絡みはないのが残念だがテキストマイニングの基礎的なことは一通り試せる。
  • Rによるテキストマイニング ―tidytextを活用したデータ分析と可視化の基礎

    • テキストマイニング系ってあっちゃこっちゃの関数やライブラリをつなぎ合わせた感があり、途中であるいはコードをあとで見直すと「俺何やってんだっけ」と見失いがちなのだが、tidytextという考え方で処理をスマートに記述するもの。自然言語処理もPythonが主流になりがちだけどRで実施するのであれば本書程度は慣れておくべきと思う。
  • 統計学OnePoint テキストアナリティクス

    • 『Rによるテキストマイニング入門』は分かち書きから基礎的な処理、『Rによるテキストマイニング ―tidytextを活用したデータ分析と可視化の基礎』はテキストのきれいな処理の仕方、『統計学OnePoint テキストアナリティクス』はもう少し突っ込んで多変量解析や機械学習などでテキストをどう分析するか、という違いか。ただ3著書とも流行り?の深層学習による分析などは行っていないので、まずは基礎的なところを押さえるという感じか。
  • 機械学習・深層学習による自然言語処理入門 ~scikit-learnとTensorFlowを使った実践プログラミング~ (Compass Data Science)

    • 形態素解析から、word2vec、アテンション、BERTなど注目技術について図解、コード例で非常にわかりやすく解説している。
    • Pythonで自然言語処理するならばまず最初の1冊として良いのではないか。
  • 犯罪捜査のためのテキストマイニング

    • 本書は少し趣が異なる。脅迫状や犯行声明文などから犯人を割り出すという分野の本だが、実務で関係する人はきっと少ないでしょう。どちらかというと犯罪捜査ということではなくて、計量的文体分析の入門として読みました。
      • 深層学習でテキストマイニングというほど文書が少ないことが実務上は多いので、少ない文章でも特徴を見出す手法はないか、という興味で読みました。
      • 犯罪捜査の心理学の専門家の財津氏が計量的文体分析の専門家の金明哲先生から学んで書いているので、手法の整理等が明快です。
  • ウェブデータの機械学習(機械学習プロフェッショナルシリーズ

    • ここまでとは異なり、理論の解説の本。
    • クローリングなどがメインかとスルーシていたのですが、自然言語処理を自習したくなったら参考になりそうなサイトなど このブログ記事を見て、「NLP関連として評判分析と表現学習 (word2vec) について扱っています.個人的に何かと後輩にお勧めすることが多い本です.」という記述を発見。自然言語処理と言っても、翻訳、要約、生成、などいろいろありますが、評判分析にちょうど興味を持ったところだったので即買い。
    • バースト検出、評判分析、表現学習、グラフデータ、順序学習とてんこ盛りなので1つのトピック自体は物足りないですが、日本語で読める資料としては貴重な内容です。
    • 『ウェブの自然言語処理』等としたほうがもっと売れるのではないかと思う。

データサイエンス言語

​R

Pyth​​on

データ可視化

最適化

例えば機械学習を用いて、

  • 来月の売上は10%減となります!
  • この作業工程では製品の不良率が20%です!

と正確に予測できても嬉しくない。どのように営業を掛けたら売上が最大化するのか、どのように原材料・工程を変えたら不良率が最小になるのか、という最適化がビジネスでは必要ですね。機械学習がある適度出来るようになってきたこともあり今まで以上に最適化が求められていると思う。


マーケティング

ビジネス向けのデータ分析としてマーケティング関連も多いと思う。マーケティングの本はQiitaにはそぐわないかと思うのでnote.muにまとめたデータ分析が仕事の人がマーケティングに手を出す

需要予測

  • 在庫管理のための需要予測入門』キャノンシステムソリューションズ株式会社数理技術部編
    • 需要予測の本があまりないようです。理論的な詳しい本ではありませんが概要を見るにはよい本と思います。

番外
時系列データで経済・金融データを扱い需要予測周りも少し扱ったので関連書を、としていたがビジネス用途だと深層学習より統計モデルのほうが適していると考えている。

  • データが必ずしも多くないので深層学習が適さない
  • 予測値が出るだけではなく、どの説明変数をいじるとどう結果が異なるか(売上という予測値を増やすためにはどの説明変数をいじればいいのか)
  • 因果関係を示す

統計モデルの学習は抽象的になりがちでつらいが計量経済学だと具体的な問題に統計モデルを適用した良書が多い。

経済学

​​計量経済学

  • 中級​​『計量経済学 (y21)』浅野哲、中村二朗著 有斐閣
    • 計量経済学の中級書の定番。理論を追求する場合の入門。重回帰、経済データの取り扱いなどが参考になると思う。

経済指​​標

その他

人工知能

データサイエンスや機械学習を行うにあたって直接的には人工知能の知識は必要ないと思います。ただ、人工知能のニュースが連日流れており、上司から「人工知能でなんかやれ」と言われてお困りの方もいらっしゃるのではないでしょうか。事例記事に流されていると何が人工知能なのかわからなくなってくるので一度、引きの立場で眺めてみるのも良いかと思います。

  • 初級『マッチ箱の脳(AI)―使える人工知能のお話』森川幸人著
    • ニューロン1つをマッチ箱に見立てて、マッチで重みを表現するという面白い絵本仕立ての本。遺伝的アルゴリズム、ニューラルネットワークに加えてエキスパートシステムは強化学習法の解説まである。Amazon中古はあるみたいなので、人工知能や機械学習のイメージをつかみたい初心者によいのではないか。
  • 初級『人工知能はどのようにして 「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質
    • コンピュータ将棋第一人者で名人を倒したポナンザの開発者山本さんの本。人工知能がいくつかのハードルを乗り越えたのを「卒業」と表現しているのが興味深い。理論的な解説はないが、ボナンザ、アルファ碁、機械学習、深層学習、強化学習、モンテカルロ探索などについて平易な解説がある。
  • 初級『人工知能はいかにして強くなるのか? 対戦型AIで学ぶ基本のしくみ (ブルーバックス)

    • 人工知能というよりコンピューターチェス、コンピューター碁についての入門書です。AlphaGOについても言及がありますが深層学習より手の探索のアルゴリズムの説明。人工知能を知る入門としては弱いと思うけど、新書なので軽く読むのにはいいのではないでしょうか。
    • 初級『最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み
    • アルファ碁の解説を通して、深層学習、強化学習、モンテカルロ法などの触りですが、分かりやすいと思います。
  • 初級・中級『人工知能入門』小高知宏著

    • 大学の半期の講義用の教科書らしい。人工知能の概要をコンパクトにまとめている。数式はほとんどなく、章末問題に少し出てくる。本来は1章が分厚い1冊になる内容をまとめているので物足りなさは残るが「人工知能」についての概要を知るのにはよいと思う。人工知能≠機械学習であり、人工知能⊃機械学習(人工知能は機械学習とイコールではなく、人工知能を目指す技術の一部が機械学習)ってことがよく分かります。

データサイエンティストによる推薦リスト

っーかaokikenichiって誰やねん、自分なんか信じらんねーという方向けに信頼と実績の著名データサイエンティストによる推薦リストを

最新の情報や、スクリプト例を無料で知りたいというなら、 データサイエンス領域の役立つブログをまとめる(日本のみ)

気になる近刊

aokikenichi
質問は気軽にコメント欄かTwitterへ Q&Aサイト https://teratail.com/users/aokikenichi こんな本を読んでいます https://booklog.jp/users/aokikenichi/ 技術系以外の記事はnoteへ https://note.com/aokikenichi
https://twitter.com/aokikenichi/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away