Update版2023年版データ分析の100冊を書きましたよ!
必読10冊を更新。データサイエンス、データ分析、機械学習周りでおすすめ図書10選のような記事は良く見ますが、網羅的な紹介記事はあまり見かけないので自分が欲しいと思い書きました。私よりたくさん読んでいる方は多々いらっしゃると思いますが、記事を書いてくださいな。
- 別の観点でデータ分析プロジェクトのフェーズ毎の参考書籍紹介という記事を新たに書きました。
- データ分析の各フェーズ(データ分析プロジェクト全体-ビジネス状況の理解-データの理解-データの準備-モデルの作成-評価-展開)毎に参考書籍を紹介しています。
本記事の対象と想定
- Qiitaはプログラマやコンピューター系技術者のための記事と思ってます。ので研究者は対象にしていません。
- 理論より手を動かす
- 理論をないがしろにしてはいけない。ただ、数式を恐れて何もしなくなってしまうより、まず手を動かしてコードを書いてデータを扱うことにより理解が進むことがある
- 理論ガチ無視で人工知能万歳!と無着苦茶だけど声がでかいだけでOKみたいな人を駆逐したい
- ので、手を動かした後に理論もフォロー
- 機械学習系って、研究成果が簡単なライブラリやAPIで誰でも試せるようになって距離が近くなっているので訳わかんなくなってるけど、研究成果を実際の問題に適用するのが大事
- だからさ数式に恐れずまずトライしようよ
- 紹介書籍が多くなりすぎたので読む順番の参考マップデータ分析関連(データサイエンス、データ分析、機械学習)書籍マップを作成しました。
ってな感じです。
スパムの恐れありと一旦公開を閉ざされましたが、事務局に相談したところ誤解が解け解除されました。このような紹介記事は少なく、初心者向けでこれだけまとまっているものないと自負しております。ただ、アソシエイトに対し文章が少なめなので要注意との指摘も受けておりその点は今後も注意してまいります。
反論があれば遠慮なく Qiitaコメントか、 https://twitter.com/aokikenichi にお願い致します。
ざっくりとした難易度
- 初級:前提知識ほぼなし。数式不要。プログラミング不要。
- 中級:初級を前提知識とする。理論の本の場合は微積・線形代数程度の数学の知識があれば理解に役立つ。ツールを扱う本の場合はRかPythonを書くと理解に役立つ。
- 上級:中級を前提知識とする。微積・線形代数程度の数学の知識が十分ないと理解は難しい。中級程度の本でRかPythonを書いた経験を前提とする。
データ分析をするための最低限の10冊
###まず試してみる(R向け)
- 初級・中級 『Rによるデータサイエンス データ解析の基礎から最新手法まで 第2版』 金明哲著
- Rを用いるなら定番の本だと思う。代表的な統計・機械学習手法を実行可能。
数式抜きで解説している本だと結局分からないが理論的は本は難しい。ので、手を動かして実際に分析してみるのがよいと思います。 - この本では理論はほぼ解説していないので、まず習うより慣れろって感じです。
- 最近類書がたくさん出ていますが私が知るかぎりでは手法の網羅度では本書がよいと思います。
- 本書の詳しい解説を書きました。SE, PG系の方がデータ分析、機械学習をやる必要が出た時にまず手にとるべき一冊
- 機械学習系のパッケージを統合したcaretを用いて本書のコードを実行した記事を書きました 『Rによるデータサイエンス』をcaretで再現する
- Pythonも類書たくさん出ているけど、好評のまま2版が出た
- 『[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)』あたりでしょうか?
- 初級・中級『RとStanではじめる ベイズ統計モデリングによるデータ分析入門』
###まず試してみる(Python向け)
###データ分析の全体像を俯瞰して
###理論の概要と数学基礎を並行で固める
- 中級 『統計学のための数学入門30講 (科学のことばとしての数学)』永田靖著
- とは言うものの数学が必須だよね。大学で学んだから代替だいたいは分かるのだけど統計との関連が今ひとつ、、、ってな方に適しています。統計学でどのように使われているかを念頭に置いた、微分積分、線形代数の紹介。1冊で紹介しているので各内容の説明は薄め。
- 一通り勉強した後の確認や、過去に勉強したが錆び付いている人の再起動、今学んでいることを統計学と結び付けたい人向け。
- 講談社機械学習プロフェッショナルシリーズ『深層学習』の読み解きをした時に、数学でわからないところはほぼ本書に出ていました。
- ただ、薄い本書に微分積分と線形代数を押し込めているので、初学者には厳しいと思います。微分積分と線形代数の入門書は鬼のようにたくさん出ているので、大学での微分積分、線形代数なんてまるでわからんって方は本書の前に、マセマなど大学1年生用の簡単な本から。
- 中級『これなら分かる最適化数学―基礎原理から計算手法まで』金谷健一著
- 中級・上級『統計学入門 (基礎統計学)』東京大学出版会(いわゆる「赤本」)
- 中級・上級『はじめてのパターン認識』平井有三著(いわゆる「はじパタ本」)
- 『深層学習 (機械学習プロフェッショナルシリーズ)』講談社機械学習プロフェッショナルシリーズ(いわゆる「深層学習青本」) 第二版が1/19に出るらしいです要注目
実技を学ぶ
-
『前処理大全』
- 今まではデータ分析、機械学習のいわゆる「面白いところ」の理屈についての本でしたが、実業務ではデータの汚さと格闘することになります。
- データ分析の8割は前処理、などと言われる割にはまとまった解説書がなかった。本邦初だろう。必読。
- 「前処理○○」という類書がありますが、本当に前処理について網羅的に丁寧に記述しているのは本書。
- データの集計・結合・分割・生成などの整形の大全。1つの課題に対し、SQL、Python、Rの3言語でどう対処するかのコード例、また言語による得手不得手の明示。
- ググればたいてい見つかるものだけど、思い込みで局所解に陥っていたら効率の悪いコードにハマっているかも。一度正解を眺めておくだけでも深みにハマることを避けられると思う。
その他10冊以外は後述だけど迷い道くねくね
- 数学の学び方補足
- 「わかる○○」的な本で微積・線形代数を一通り→「統計学のための数学入門30講」で復習。
- 『プログラミングのための線形代数』
- 微積は「傾き」を出して誤差を減らしていくってことでまだイメージがしやすいけど、線形代数がどうデータ分析に役立つかわかりにくい。線形代数って何?について散歩程度に読むと得るところ多い。
- 『プログラミングのための確率統計』
- 分布、検定、ってなんでたくさんありいつどのようにつかうのか。同時確率、周辺確率とはなんなのか。これも散歩程度に読むと得るところが多い。
- 『統計学のための数学入門30講』『これなら分かる最適化数学』に関する詳しい詳解の記事を書きました データサイエンス、データ分析、機械学習に必要な数学
- その他用途に応じて1冊
- 統計モデリング、MCMCなら
- 『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』
- データの構造をしっかり見極める統計モデリングとなんか答え出ればOK的な機械学習の違いってあまり議論されず、統計=機械学習的な人が多いけど、統計側でデータをしっかり見極めたいというなら基本中の基礎中の入門!だったけど『RとStanではじめる ベイズ統計モデリングによるデータ分析入門』も出たし好みなのかな。
- 『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』
- 時系列分析なら
- 『経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)』
- 因果分析
- 『「原因と結果」の経済学―――データから真実を見抜く思考法』
- 研究者同士ならともかく、ビジネス用途でデータ分析を行う場合、クライアントは相関と因果関係をごっちゃにしている場合がほとんど。その説明のためにしっかり理解しておこう。
- 『「原因と結果」の経済学―――データから真実を見抜く思考法』
- 自然言語処理なら
- 『自然言語処理 (放送大学教材)』
- あるいは技術の広がりを知っておくなら
- 岩波データサイエンスシリーズVol.1-Vol.6
- 統計モデリング、MCMCなら
差をつけるための10冊
あまり目をつけられてない分野、簡単だと誤解されスルーされがち、だけれども破壊力満点の10冊
-
『欠測データ処理:Rによる単一代入法と多重代入法(統計学One Point)』
- やむなく必読の10冊からこちらに移しましたが、欠測値の扱いはこれからどんどん高まるはず。
- 機械学習アルゴリズムによっては欠測値は特に処理しないでそのまま扱えることも多いけど、そうでない場合もある。そんなとき欠測値は厄介なのでみんな適当に処理しがち。
- 結構しっかりした統計の本でも「欠測値があるデータは除くこと」、「平均で埋める」などとしていることが多いが、
- むやみにデータを除くと分散などが歪む
- 適切な値で埋めないと分散が小さくなる
- 正しく埋める方法がある
- ことをRコードを示しながら丁寧に解説している。日本の統計の杜撰さが話題になってますが意図して、せずに関わらずビジネスのデータは欠損が多い。今後非常に重要になってくるはずです。今のうちに学ぼう。
-
- そうなんですよ因果関係なのです。
- データ分析の入門で「相関と因果は違う」と習うのですがその後因果関係については手薄。ただ、ビジネスにおいて「完璧な予測モデルが出来ました!来月の売上が20%下がります!」と報告したらアホかと呆れられるでしょう。なぜ下がるのか、どの説明変数が聞いているのか、そしてそこに因果関係があるのか。
- 因果関係が重視される日がもう目の前まで来ているのです。
- ノーベル賞受賞のエステル・デュフロの著作であり、ランダム化比較試験のバイブルとされているらしい。
- 因果関係を厳密に検討する「ランダム化比較試験」から簡便だが間違えやすい「前後比較」までの長所短所がわかりやすく解説されている。特にpp.130-131の「実験的方法・準実験的方法の整理」の評、「実験的方法・準実験的方法の選択基準」のチャートは必見でしょう。
-
- 地味。いわゆる時系列解析に似てそうで全然似ていない考え方が必要となる。データ分析本の推奨でまず出てこない。だけどですよ、出版社の本書紹介から引用すると
- 点過程の時系列とは,データがある着目するイベントの発生時刻の集合として特徴付けられるようなタイプの時系列である。実世界の様々な現象が点過程として表現することができ,例えば自然現象としては,地震,神経細胞のスパイク発火,遺伝子発現などが考えられる。さらに近年,人間の社会行動に関する様々な大規模データが蓄積され,それが利用可能になってきたことを背景として,金融取引,保険事故,人々のコミュニケーション,SNS上でのユーザーの活動等のデータを解析するために,点過程が用いられることが増えており,点過程の応用範囲は急速に拡大している。
- そう、金融取引やSNSデータなど今後引き合いがめっちゃ増えるのに誰も注目しておらず和書類書もほとんどない。これは狙い目です。
-
『日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック』
- 統計検定のテキストは要点の羅列で、教える気あんのかゴラァって感じだったのが、本気出したらやればできるじゃんって感じ。統計検定1級よりも広い範囲ではないかと言われる統計検定準1級向けのテキストかつ問題集なのですが、東大出版会統計学入門赤本より広い範囲(一部機械学習的な分野も含む)で、データ分析するための基礎として「こういうところを知ってなきゃだめだよ」という目安としては非常に良いのではないか。
- 広範囲を1冊にしているため各項目の解説は要点のみとはなりますが、以前のテキストの羅列とは異なり、丁寧であり、章末問題で理解を確かめられます。いきなり本書をテキストとして学ぶのは無茶ですが、いろいろテキストで学んだ後に総整理や、漏れている項目の補強などに役立つと思います。
- 必ずしも必須ではないですがこれだけ知っておくと強みになりますね。
-
XAI(説明可能なAI)--そのとき人工知能はどう考えたのか?
- AIの説明性について、ネット記事もお客様とのやりとりの中でも話題に挙がることが増えた。
- 大極的説明、局所説明などの考え方の整理から、LIME, SHAP, Permutation Importance, Partial Dependence Plot, Tree Surrogate, CAM/Grad-CAM, Integrated Gradientsなどの具体的なアルゴリズムの説明、実装例及びそれぞれの得手不得手などが詳しい。8月に出る類書までは和書で唯一であり、かつ丁寧分かりやすい。
- Kaggleなどのコンペでスコア上位を目指すのではなく、実務で機械学習を用い内容の説明が求められるならば必須ではないか。
データサイエンス・機械学習のための数学
微分積分、線形代数
- 初級:入門的な本
- 類書が多すぎてどれが良いのかは、、、大学受験・大学1年生用の「単位の取れる」「分かりやすい」などの「微分積分」「線形代数(行列)」の本を読めばよいと思います。
- 数学アレルギーがあってこのレベルもヤバいということであればまずは下記で慣れてから
- c.f. うーん、難しそうだ無理というなら、 データ分析の数学学習に疲れ「数学大嫌い」というあなたを癒やすお友達あるいは悪魔 へ
- 類書が多すぎてどれが良いのかは、、、大学受験・大学1年生用の「単位の取れる」「分かりやすい」などの「微分積分」「線形代数(行列)」の本を読めばよいと思います。
- 中級『プログラミングのための線形代数』堀玄、平岡和幸著
集合、位相
データ分析に限らず工学系の数学入門となると、微分積分、線形代数、確率統計なのだがそこからもう一段上に行く、あるいは各分野をもっと深めるとなると「沼」にはまる。集合、位相だ。現代数学の礎となっているのだが理解がしづらく入門書からはほとんど省かれている。そしてガチな世界に入るならその沼を通る必要がある。数学の基礎を固めるため工業用ダイヤモンドの如くガチガチで光り輝いているのだが、初心者が通ろうとすると沼となる。連続や含む含まれないなど当たり前すぎることを難しい概念で言い直す、3次元空間でのイメージがしにくい(できない)、具体的な数や図形で捉えられない抽象の豪雨。なんでこんなことを学ばなければならないのだろう。!!!
- 『数学ガール ポアンカレ予想』
- 『「集合と位相」をなぜ学ぶのか』
- 最初から読まなくてもよいと思う。以降で紹介する本のなかで、〇〇集合、位相〇〇などの沼にはまりかけたら本書を読むといいと思う。完全解決するわけではないが、ちゃんと意味があってそういった概念が導入されていることは分かる。私も泥んこになりながら格闘中なので大きなことは言えないが、統計学がセクシーな学問とするのであれば、集合・位相をマスターすることが、下記の分かれ目と思っている。
- 一発屋のグラビアアイドルで終わるのか、女性にも一目置かれる素敵な女優になれるのか
- 一発屋のアイドル歌手で終わるのか、男性にも一目置かれる素敵な俳優になれるのか
- 人工知能に使われるデータ処理屋で終わるのか、人工知能にも一目置かれる素敵な課題設定者になれるのか
数学余談
- 『物理数学の直観的方法―理工系で学ぶ数学「難所突破」の特効薬〈普及版〉 (ブルーバックス)』
- 一般には「線形代数」だけどガチな本だと「線型代数」と表記している事が多い。ガチに憧れて「線型」と私は表記していましたが、紹介している本との表記ゆれがめだつので直しました。
統計学
-
初級『その数学が戦略を決める (文春文庫)』文春文庫
-
初級・中級『統計学が最強の学問である』、『統計学が最強の学問である[実践編]---データ分析のための思想と方法』西内啓著
-
中級『プログラミングのための確率統計』堀玄、平岡和幸著
-
中級『バイオサイエンスの統計学』
-
中級『統計思考の世界』
-
- 東京大学出版会の統計学3部作として有名です。本書は、アンケートなどの社会調査、経済(時系列)データ、心理テストなどのデータ分析を扱っている。基本的な内容を網羅的に扱っていると思う。ビジネス系のデータ分析で、アンケート調査や経済時系列データを扱うのであれば入門としてよいのかも知れない。
- ただ、残念ながら内容が古い。「GNP」はすぐGDPと分かるからいいとして、「IBMカードの文字数制限」など???な内容があり、基準などが変わる経済指標で知らないうちに間違った古い知識を身に着けてしまう怖さがある。
- ただ、経済指標や時系列分析の本をいろいろ読んだ後に本書を読むと、あー本書にまとめて書いてあるじゃんか、となったので、初期にざーっと読むのは価値があると思う。
-
辞書的『統計クイックリファレンス 第2版』オライリー・ジャパン
-
新版 統計学のセンス ―デザインする視点・データを見る目― (医学統計学シリーズ1)
- 医学統計学シリーズですが、医学以外でもデータ分析をする人は必読と絶賛される方もいらっしゃいます。ただ私はそれほどとは思いませんでした。
- ノンパラメトリックの検定の記述についてhttps://twitter.com/h_okumura/status/1067353061310455808こんな指摘もあり、また例示も(医学統計学シリーズなので当然ながら)医学を知らないと理解しづらいものが多く、少なくともデータ分析をする人に向け強く勧めるほどの本ではないと思います。
- もちろん、気づきづらいところ、間違えやすいところに丁寧な解説があるので、読む価値はあると思いますが、ある程度実力をつけた方が補強として参考に読む程度かなと思います。
-
推奨
- 初級の本は何かお好きなものを。
統計学余談
多変量解析
- 初級『ようこそ「多変量解析」クラブへ 何をどう計算するのか (ブルーバックス)』
- 推奨
- 多変量解析も類書が多く、どれがよいか分かりません。上記ブルーバックス的な本を読んだ後に後述の『Rによるデータサイエンス』で実践しているのがよいかと思います。
統計モデリング
-
中級・上級『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』久保拓弥著
-
中級・上級『予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)』樋口知之著
時系列分析・状態空間モデル
-
時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装
- Logics of Blueという統計・機械学習のブログの著者による本。状態空間モデルのRパッケージのdlm, KFASについて偏りなく書かれています。
- 時系列分析、状態空間モデルって他の統計や機械学習と違って独特で、ブログやら下記文献やら散々探して苦労したのだが、みんな本書に書いてあった!!!
- 時系列分析、状態空間モデルを扱う必要があるなら必読です。
- 時系列分析周りも気づいたら多数本が出版されてます。どれがよいか分からなく迷いますが本書の著者がガイドを書いています。
-
時系列分析のためのブックガイド
- ここの紹介本とかなり被ってますね、我ながらセンスよし!
-
時系列分析のためのブックガイド
-
基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルター (Data Science Library)
時系列分析
時系列分析は「統計モデリングの一種」でよいのだろうか。時系列データは独特の特徴があるので、時系列分析が不要な方はスルーでよいと思います。
- 初級 まずは後述の『Rによるデータサイエンス』金明哲著の時系列分析の章を実施
- 初級・中級『Rによる時系列分析入門』田中孝文著
- 初級・中級『Rによる計量経済分析 (シリーズ〈統計科学のプラクティス〉)』福地純一郎、伊藤有希著
- 時系列解析―自己回帰型モデル・状態空間モデル・異常検知―
- 中級・上級『経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)』沖本竜義著
- 本格的に行うなら本書。
- 章末問題をRで解いた例を下記の記事に記述しています。
- 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第1章時系列分析の基礎概念-
- 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第2章ARMA過程-
- 第3章予測 は、コンピュータを用いて回答する章末問題なしなので省略
- 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第4章VARモデル-
- 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第5章単位根過程-
- 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第6章見せかけの回帰と共和分-
- 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第7章GARCHモデル-
- 中級・上級『時系列解析入門』北川源四郎著
状態空間モデル
- 中上級『Rによるベイジアン動的線形モデル (統計ライブラリー)』和合肇監訳
- 中上級『カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)』野村俊一著 共立出版統計学One Point
- 中上級『状態空間時系列分析入門』コマンダー、クープマン著
因果推論
- 因果推論系の本は直近の本を加え新たに別記事にしました 【決定版】因果推論本の読書ガイド31冊〜『インベンス・ルービン 統計的因果推論』和訳記念!
- 関連記事エビデンスベースド
ベイズ統計
- 中級『StanとRでベイズ統計モデリング (Wonderful R)』松浦健太郎著
- 中級『基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門』豊田秀樹編著
- 『ベイズモデリングの世界』
異常検知
-
入門 機械学習による異常検知―Rによる実践ガイド
- 異常検知の第一人者である井出先生の定番本。類書が少なく、異常検知が必要ならばまず手に取る1冊。「Rによる実践ガイド」と副題があり、Rによるコード例もあるが、基本は理論の解説。ただ厳密な定義定理スタイルではなく概念の説明が主。
- 井出先生のサポートページの内容紹介が詳しくて参考になる。
スパース推定
データサイエンス
-
初級『データサイエンス入門』
-
初級『数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)』岡島裕史著 光文社新書
-
初級『金鉱を掘り当てる統計学―データマイニング入門 (ブルーバックス)』豊田秀樹著 ブルーバックス
-
初級『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』オライリー・ジャパン
-
初級・中級 データサイエンティスト養成読本
- 『改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)』
- 『データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)』
- 『データサイエンティスト養成読本 機械学習入門編 (Software Design plus)』
- 広い範囲を扱っているので、詳細には突っ込んでいないが「データサイエンス」にどんなものがあるかなどを見るにはよいと思われる。必読。(余談:データサイエンティストはホームズやチェスマスターに近いかも知れないけど、「データサイエンティスト」って鉱夫なのかな
- 初級『データサイエンティスト養成読本 登竜門編 (Software Design plus)』
前処理・データクレンジング
- 既述
機械学習
-
『Approaching (Almost) Any Machine Learning Problem』
- 洋書なのだが大部分はPythonコード例。『Kaggleで勝つデータ分析の技術』とほぼ同レベルで、本書はコード例メイン。英語が苦手ならば(私とか)『Kaggleで勝つデータ分析の技術』を読んだ後に読めばだいたい理解できる。Kaggleに特化というよりも実際のデータ分析に役立つTips集といった感じ。
- 和訳が出る『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』
-
初級・中級『入門 機械学習』オライリー・ジャパン
-
初級・中級『データマイニング入門』豊田秀樹編著
-
初級・中級『集合知プログラミング』オライリー・ジャパン
-
上級『パターン認識と機械学習 上』『パターン認識と機械学習 下』C.M.ビショップ
- PRMLとも呼ばれ、理論の定番書。上巻までしか読んでません。すみません。
- 前提知識の整理の『パターン認識と機械学習の学習―ベイズ理論に挫折しないための数学』がある。
- さらに本書の前提知識を解説する『パターン認識の機械学習の学習』の学習を書きだしています
-
推奨
- 『データサイエンティスト養成読本』で俯瞰的に眺め、『Rによるデータサイエンス』で一通り手法を試したあと、『はじめてのパターン認識』で理論をさーっと見渡す
- 分からなければ『これなら分かる最適化数学』などで鍛える
- 分かれば講談社機械学習プロフェッショナルシリーズなどで必要な分野を学ぶ
- 『データサイエンティスト養成読本』で俯瞰的に眺め、『Rによるデータサイエンス』で一通り手法を試したあと、『はじめてのパターン認識』で理論をさーっと見渡す
MLOps
シリーズ
- 岩波データサイエンス
-
流行の深層学習を避けて(一部記事はあり)、かつデータ分析に必須な(かつ実は流行っている)テーマをタイムリーに出す素晴らしいシリーズ。コード例あり、ツール紹介あり、流行の研究の紹介あり。ついに完結してしまった。必読。
-
『岩波データサイエンス Vol.1』 ベイズ推論とMCMCのフリーソフト
-
『岩波データサイエンス Vol.2』 自然言語処理
-
『岩波データサイエンス Vol.3』 因果推論
-
『岩波データサイエンス Vol.4』 地理情報処理
-
『岩波データサイエンス Vol.5』スパースモデリングと多変量データ解析
-
『岩波データサイエンス Vol.6』時系列解析――状態空間モデル・因果解析・ビジネス応用
-
深層学習
-
『機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)』
-
- 「これならわかる」「理論を初めて学ぶ人はもちろん、今度こそ理解したい人のために」とのことで、上記『深層学習』より優しいかと思いきや、むしろ難しいのではないかと思われるガチ数学(ごめんなんさい本当にガチの人から見たら優しいのかもしれない)。
- 本書は『深層学習』の入門版というよりも、最近の動向(深層強化学習ほか)も追加した更新版と捉えたらよいのかもしれない。
- ということで、読みながら難しいところメモする、機械学習スタートアップシリーズ『これならわかる深層学習入門』の学習、を書き出しています。
- 第1章 はじめに
- 第2章 機械学習と深層学習
- 第3章 ニューラルネット
- 第4章 勾配効果法による学習
- 第5章 深層学習の正則化
- 第6章 誤差逆伝搬法
- 第7章 自己符号化器
- 第8章 畳み込みニューラルネット
- 第9章 再起型ニューラルネット
- 第10章 ボルツマンマシン
- 第11章 深層強化学習
- 付録A 確率の基礎
- 付録B 変分法
-
-
- 深層学習はUpdateが早くて特に注目技術ほど研究者の競争が熾烈なのか早い。驚きを持って迎えられたGANも早すぎてついていけなったのだが、本書によりGANの基礎から約一年前までですが研究の進展も分かる。数式は控えめなので理論を精緻に理解するとまでは行きませんが(引用文献を読めばいい)、コード例が豊富で分かりやすいです。
- 出版社のページにかなり詳細なページ見本もあります(見開き15箇所で計30ページ分も)
-
『深層学習』
深層学習のフレームワーク
研究者なら0から深層学習を実装する必要があるかもしれませんが、それを使う技術者&ユーザーはフレームワークを用いることになると思います。フレームワークはたくさんあります。ちょっと古いですが深層学習フレームワークヒッチハイクガイドVer2.0参照。
- 以前紹介していた古いTensorFlow, Chainer本は削除、新たに模索中です。
PyTorch
強化学習
- 『AlphaZero 深層学習・強化学習・探索 人工知能プログラミング実践入門』
- 『機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで』
- 初版が出てまもなく改版が出ている。Pythonコード付きで強化学習の基本からDQNなど主要なアルゴリズムを学べる。Pythonを知っており、ある程度機械学習などをやったことがある人ならば最初の1冊にいいかも。
- 著者によるサポートページicoxfog417/baby-steps-of-rl-jaが充実している。
- 『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』
- Amazonあるいは翔泳社のページで立ち読みができる。
- これもPythonコード付きで詳しい。『Pythonで学ぶ強化学習』とほぼ同レベルか。好みで選べばよいかと。
- 『強化学習』森北出版
テキストマイニング、自然言語処理
- 大規模言語モデル系の書籍については大規模言語モデル(LLM)とそれまでの技術の流れを入門用にまとめたも参照ください。
首都大学東京小町研推奨の本
- 首都大学東京 自然言語処理研究室(小町研)のページが非常に参考となる。(サイトURL更新しました)
- 『自然言語処理 (放送大学教材)』
- 『言語処理のための機械学習入門』
- 自然言語処理に用いる機械学習の入門。難易度としては前掲の『はじめてのパターン認識』程度。本書も2010年刊行なため深層学習についての記述はないが基礎的なところから丁寧に解説されており、例示も自然言語処理に沿っているので、自然言語処理が必須ならば『はじめてのパターン認識』よりも本書が良いと思う。RやPythonでのコード例があればもっと良かったがなー
上記以外
-
テキストマイニングとテキストアナリティクス
- テキストマイニングに似た言葉としてテキストアナリティクスがある。『テキストアナリティクスの基礎と実践』によると
定型化されていないテキストは、単語や文節などの単位に分割し、それらの出現頻度や共起関係(同時出現)などを集計し、データ解析やデータマイニングの手法で定量的に解析することができる。その分野を計量テキスト分析、テキストアナリティクス、またはテキストアナリシスと呼ぶが、情報処理やビジネスの分野ではテキストマイニングと呼ばれている。
- と内容に違いはなく呼び方の違いのみと思われる。ただ本シリーズの内容からすると概ね
- テキストアナリティクス:単語の頻度や共起関係等に重きをおく比較的少ない文書量の分析
- テキストマイニング:深層学習による、大規模の文書量の学習モデル生成と文書分類や翻訳や要約などの実施
- というように重きの置き方が異なると思う。そしてテキストアナリティクスを学ぶのであれば岩波書店テキストアナリティクスシリーズが新しく、丁寧な解説のシリーズと思います。
- テキストマイニングに似た言葉としてテキストアナリティクスがある。『テキストアナリティクスの基礎と実践』によると
-
岩波テキストアナリティクスシリーズ
- 第1巻『テキストアナリティクスの基礎と実践』
-
- テキストアナリティクスの概要説明の巻。
- 形態素解析、基本統計量、可視化(ワードクラウド等)、共起関係、トピック分析等
- 巻末に分析ツールの「MTMineR」の解説がある。
- 第2巻『テキストマイニングの基礎技術と応用』
-
- 深層学習を用いるのではなく、word2vec等によるベクトル化からあくまでも頻度等による分析。
- 顧客の声・SNS、特許文献の分析事例等。
- 第3巻(未刊)『テキストアナリティクスのための言語解析技術』
- 第4巻『テキストデータマネジメント』
-
- 主にGoogle BigQueryを用いた文書の管理と前処理方法
- 第5巻(未刊)『ソーシャルメディアマイニング』
- 第6巻『金融・経済分析のためのテキストマイニング』
-
- テキストマイニングの金融分野への適用事例。
- 金融テキストの取り扱い(関係・単語抽出、トピック分析)、テキスト分析による金融価格推定、因果関係の抽出等。
- 第7巻『文学と言語コーパスのマイニング』
-
- 文字通り文学に適用した事例集。
- 源氏物語の作者推定(全部紫式部じゃないらしい)
- リルケ『マルテの手記』の分析
- 著者識別、代筆推定
- 芥川龍之介、宇野浩二の文体変化
- 夏目漱石を模倣した作品の分析
- 方言分類
-
-
『機械学習・深層学習による自然言語処理入門 ~scikit-learnとTensorFlowを使った実践プログラミング~ (Compass Data Science)』
-
『ウェブデータの機械学習(機械学習プロフェッショナルシリーズ』
- ここまでとは異なり、理論の解説の本。
- クローリングなどがメインかとスルーシていたのですが、自然言語処理を自習したくなったら参考になりそうなサイトなど このブログ記事を見て、「NLP関連として評判分析と表現学習 (word2vec) について扱っています.個人的に何かと後輩にお勧めすることが多い本です.」という記述を発見。自然言語処理と言っても、翻訳、要約、生成、などいろいろありますが、評判分析にちょうど興味を持ったところだったので即買い。
- バースト検出、評判分析、表現学習、グラフデータ、順序学習とてんこ盛りなので1つのトピック自体は物足りないですが、日本語で読める資料としては貴重な内容です。
- 『ウェブの自然言語処理』等としたほうがもっと売れるのではないかと思う。
データサイエンス言語
R
- 既述の『Rによるデータサイエンス データ解析の基礎から最新手法まで』などの本で具体的な問題にそってRを写経したらいいと思いますが辞書的な本を
- 『Rクックブック』
Python
- 『IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集』
-- IPython notebook(Jupyter)の練習用に
データ可視化
noteに「データ可視化の本10冊」を書きました。
最適化
例えば機械学習を用いて、
- 来月の売上は10%減となります!
- この作業工程では製品の不良率が20%です!
と正確に予測できても嬉しくない。どのように営業を掛けたら売上が最大化するのか、どのように原材料・工程を変えたら不良率が最小になるのか、という最適化がビジネスでは必要ですね。機械学習がある適度出来るようになってきたこともあり今まで以上に最適化が求められていると思う。
業界・業務別
マーケティング
ビジネス向けのデータ分析としてマーケティング関連も多いと思う。マーケティングの本はQiitaにはそぐわないかと思うのでnote.comにまとめたデータ分析が仕事の人がマーケティングに手を出す
-
- マーケティング分析について網羅的に紹介しているのが非常によい。デジタルマーケティングの浮ついた本を読むよりもこれをきっちりやるほうがよほど役に立つと思うがどうだろう。Python流行りだけれどこういうモデルモデルしたものはRの蓄積が嬉しい。盛りだくさん。
- 第1章 Rの概要
- 第2章 R言語入門
- 第3章 データの特徴を捉える
- 第4章 連続変数間の関係
- 第5章 グループの比較:テーブルとグラフ化
- 第6章 グループの比較:統計的検定
- 第7章 結果に対する要因を特定する
- 第8章 データの複雑さを低減する
- 第9章 線形モデルの発展的トピックス
- 第10章 確認的因子分析と構造方程式モデル
- 第11章 セグメンテーション:クラスタリングと分類
- 第12章 マーケットバスケット分析とアソシエーションルール
- 第13章 選択モデル
- 第14章 行動シーケンス
- 時系列分析をやりだすとそれはまた大部の本になってしまうのでないのは仕方ないにしても、顧客生涯価値やらRFMなどの顧客セグメンテーションについては今後の勉強のきっかけとなるような少しでよいので触れてほしかった。
- あと、初学者の負担にならないようにとTidyverseを用いない従来の書き方になっているが、見たこともない関数が出てきて、Tidyの方が良いのではないかと思う。
WEB
需要予測
- 【決定版】需要予測・市況予測のための時系列分析の本リスト に内容を拡充して移動しました。
金融
物流
不動産
- 『不動産テック』
##医療
医療系の本は医療系ライフサイエンスのデータ分析の背景知識と機械学習の本に移動しました。
番外
経済学
時系列データで経済・金融データを扱い需要予測周りも少し扱ったので関連書を、としていたがビジネス用途だと深層学習より統計モデルのほうが適していると考えている。
- データが必ずしも多くないので深層学習が適さない
- 予測値が出るだけではなく、どの説明変数をいじるとどう結果が異なるか(売上という予測値を増やすためにはどの説明変数をいじればいいのか)
- 因果関係を示す
統計モデルの学習は抽象的になりがちでつらいが計量経済学だと具体的な問題に統計モデルを適用した良書が多い。
ただ、ボーダーラインは曖昧だが、経済学の本もあまりQiitaにはそぐわないかと思うのでnote.comに移動しました。→ データ分析が仕事の人が経済学・金融に手を出す
その他
人工知能
データサイエンスや機械学習を行うにあたって直接的には人工知能の知識は必要ないと思います。ただ、人工知能のニュースが連日流れており、上司から「人工知能でなんかやれ」と言われてお困りの方もいらっしゃるのではないでしょうか。事例記事に流されていると何が人工知能なのかわからなくなってくるので一度、引きの立場で眺めてみるのも良いかと思います。
-
初級『マッチ箱の脳(AI)―使える人工知能のお話』森川幸人著
-
初級『人工知能はどのようにして 「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質』
-
初級『人工知能はいかにして強くなるのか? 対戦型AIで学ぶ基本のしくみ (ブルーバックス)』
- 人工知能というよりコンピューターチェス、コンピューター碁についての入門書です。AlphaGOについても言及がありますが深層学習より手の探索のアルゴリズムの説明。人工知能を知る入門としては弱いと思うけど、新書なので軽く読むのにはいいのではないでしょうか。
- 初級『最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み』
- アルファ碁の解説を通して、深層学習、強化学習、モンテカルロ法などの触りですが、分かりやすいと思います。
-
初級・中級『人工知能入門』小高知宏著
データサイエンティストによる推薦リスト
っーかaokikenichiって誰やねん、自分なんか信じらんねーという方向けに信頼と実績の著名データサイエンティストによる推薦リストを
-
データサイエンティスト協会「スキル委員による推薦リスト」
- 網羅的でいーのだが順不同で見難いな
-
朱鷺の杜「機械学習テキストブック」
- 機械学習情報サイトのサラブレッドって感じ。研究者志向なリスト。
-
六本木で働くデータサイエンティストのブログ「書評」
- 記事でもなんども引用させていただいているビジネス向け機械学習情報サイトの雄。ビジネス向けなら硬軟あり一番優れたリストと思います。
- 機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)
- 時系列分析のためのブックガイド
-
マーケティングメトリクス研究所「今年こそデータサイエンティストになると決意したあなたが読むべき10冊」
- マーケティングのサイトなのでマーケティング担当者向けなのだろうけど「まず基本統計量を」と『統計学入門』東京大学出版会を出してしまうと、ここでみんな挫折してしまうのではないだろうか、、、
- Qiita記事「データサイエンティストに興味があるならまずこの辺りを見ておきな、って文献・動画のまとめ(随時追加)」
- 存じあげない方ですがQiita記事の先輩として参考とさせていただいております。
-
データ分析の入門書にオススメな本11冊
- Googleアナリティクスの専門家の方らしい。ExcelメインでR入ろうかどうしようかというビジネスマン向け。
- Big Data Magazine<書籍15選>いま読んでおきたいビッグデータ関連書籍~事例、ビジネスでの活用、技術等~
- ビジネスマン向け。
最新の情報や、スクリプト例を無料で知りたいというなら、 データサイエンス領域の役立つブログをまとめる(日本のみ)