本記事の目当て
- ざくっと言いますと2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊はPythonメインで書いてますので、そのR版です。
- 自己紹介しますと2015年から本格的にデータ分析業務を始め当初はRかつ時系列分析中心でした。2020年から部署異動でPythonメインとなり時系列分析以外も広く機械学習一般を扱うようになりました。
- そのため、Rの本はやや古めで新しいRの本は追えてない面があります。
- ただPython版と同じく機械学習・データ分析の分野で網羅的にRで実施の本を紹介しているリストがあまり見当たりませんので書きました。
背景というか感謝
- 2015年当時は情報も少なく(『機械学習』と題した本がほぼなくて、機械工学の棚に並んでいたりしました)苦労したのですが下記ブログは大変世話になりました!特にRの本(そしてノウハウも)についてはこのブログに依るところが大きいです。
-
渋谷駅前で働くデータサイエンティストのブログ
- ご存知TJOさんのブログ
- 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リストなど毎回得るところ大です。
-
ほくそ笑む
- ホクソエムと人を喰った名称ながらブログも書籍もガチですね。
-
Logics of Blue
- 時系列分析とベイズに強いですね。
-
渋谷駅前で働くデータサイエンティストのブログ
凡例
- Pythonメイン版の2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊と重複するところも多いです。その場合は2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊の該当箇所参照としています。
- 説明上は「2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊」のことを「Python105冊」と略しています。
2024年版機械学習・データ分析の必須OO冊 with R | Python105冊との違い |
---|---|
1. 必須の10冊 | 1冊差替 |
2.1. ビジネス・テーマ定義の4冊 | Python105冊と同じ(Python/R関係なし) |
2.2. 前処理・特徴量エンジニアリングの3冊 | 2冊削除 |
2.3.1. 分析アルゴリズム 統計学の3冊 | Python105冊と同じ(Python/R関係なし) |
2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の3冊 | 2冊削除 |
2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の3冊 | 1冊削除 |
2.3.4. 分析アルゴリズム 因果推論・因果探索の5冊 | 1冊削除 |
2.3.5. 分析アルゴリズム 異常検知の1冊 | 1冊削除 |
2.3.6. 分析アルゴリズム ネットワーク分析の1冊 | 1冊差替 |
2.3.7. 分析アルゴリズム スパースモデリングの1冊 | 1冊削除 |
2.3.8. 分析アルゴリズム 強化学習(なし) | 本記事ではリストアップなし |
2.3.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の3冊 | 1冊削除3冊差替 |
2.3.10. 分析アルゴリズム 評価指標・XAIの2冊 | 2冊削除1冊差替 |
2.4. データ可視化の6冊 | 1冊差替 |
2.5.1. 自然言語処理の6冊 | 3冊差替 |
2.5.2. 生成AIの4冊 | 2冊削除 |
2.5.3. 時系列分析の7冊 | 4冊差替 |
2.5.4. 画像処理の1冊 | Python105冊と同じ(Python/R関係なし) |
2.5.5. 地理空間の1冊 | 1冊差替 |
2.6. 機械学習周辺の手法1冊 | 3冊削除1冊差替 |
2.7. 数学的基礎の4冊 | Python105冊と同じ(Python/R関係なし) |
2.8. プログラミングの1冊 | 2冊削除 |
3. データ管理の2冊 | 1冊削除 |
4.1. 構築・運用(なし) | 本記事ではリストアップなし |
4.2. 資格の2冊 | Python105冊と同じ(Python/R関係なし) |
4.3. KAGGLEの3冊 | Python105冊と同じ(代替本がないのでこのまま) |
5. Next!の5冊 | Python105冊と同じ(一部Python/R関係あり) |
- 書籍紹介での凡例
- 書籍の一覧表の左端欄は
- R
- 今回の記事で取り上げたRの本
- 共通
- Python版でも取り上げた本だが説明の都合上再録
- R
-
next break
- 記事時点で発売前だが本リストに入りそうな候補
- 書籍の一覧表の左端欄は
- 図の凡例
全体俯瞰
1. 必須の10冊
- データサイエンティスト協会の「ビジネス」「データサイエンス」「データエンジニアリング」3つの要素が必要だよ、に合わせてみました
- 冒頭でも述べましたがこの10冊を読んでおくと、「なんもわからん」がかなり減ると思います
- そして、後続の各カテゴリの本へ接続しやすいのかな
カテゴリ | 書名 | 内容 | |
---|---|---|---|
R | 最初の1冊 |
Rによるデータサイエンス(第2版): データ解析の基礎から最新手法まで |
|
- 後の9冊はPython105冊1. 必須の10冊のPython機械学習本以外と同じです。
- ただ注意『前処理大全』は改版が出ていますが改版ではRがなくなっているので初版の方がいいです。初版ではR/SQL/Pythonで前処理手法が多数載っています(改版はRがPythonのライブラリPolasに変更)
- 前処理大全[データ分析のためのSQL/R/Python実践テクニック]
2.
2.1. ビジネス・テーマ定義の4冊
- Python105冊2.1. ビジネス・テーマ定義の4冊と同じ
- これはPython/R関係ないです
2.2. 前処理・特徴量エンジニアリングの3冊
-
Python105冊2.2. 前処理・特徴量エンジニアリングの5冊参照
- Rで特徴量エンジニアリングがっちりの本を私が不勉強で知らないですが
- 『入門 サンプルサイズ設計』は言語関係なし
- 『欠測データ処理』はR
- 『Kaggleで勝つデータ分析の技術』はPythonですが必須なノウハウが
- (『機械学習のための特徴量エンジニアリング』『事例で学ぶ特徴量エンジニアリング』も言語によらないノウハウはありますがPythonベースのため削除)
2.3.1. 分析アルゴリズム 統計学の3冊
- Python105冊2.3.1. 分析アルゴリズム 統計学の3冊と同じ
- これはPython/R関係ないです
2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の3冊
-
Python105冊2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の5冊参照
- の3冊(優しい本とバイブルと間が開きすぎだがちょうどいいのが見当たらず『はじめてのパターン認識』を繰り返し読むしかないか
- (Optunaによるブラックボックス最適化), (Pytyhonで始める教師なし学習)は考え方は参考になるはずだがPython実装なので削除
2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の3冊
- 深層学習するならばRでできないことはないですがやはりPythonですね。
- でもRユーザーで深層学習は深くは実施しないものの基本的なところは押さえておきたいということもあると思うので、下記を。
-
Python105冊2.3.3. 機械学習アルゴリズム-2(深層学習)の4冊参照
- このうち下記3冊は言語が関係ないので採用
- ディープラーニングを支える技術
- ディープラーニングを支える技術2
- 深層学習 改訂第2版
- (ゼロから作るDeep Learningは明らかにPythonなので略)
- このうち下記3冊は言語が関係ないので採用
2.3.4. 分析アルゴリズム 因果推論・因果探索の5冊
- この分野はRの本も充実してますね(というかRの方が元々充実していた)
- 相関があっても因果がないと良く言われますがならば因果を見出すには?についてもっと必要とされると思うのですがなかなか来ないなと思っていたら、ここ1-2年で類書がどかんと増えました。
- ビジネスでデータ分析をするのであれば単に予測するだけではなく売上増やコストダウンを目指すので、その結果を導き出すための原因探索がもっともっと求められますよ!
- ということでより深くは別に記事を書いてますが基礎となる本を示します
書名 | 内容 | |
---|---|---|
共通 |
「原因と結果」の経済学―――データから真実を見抜く思考法 |
|
R |
効果検証入門 \n〜正しい比較のための因果推論\n/計量経済学の基礎 |
|
R |
統計的因果推論の理論と実装 |
|
共通 |
因果推論入門〜ミックステープ |
|
共通 |
因果推論の科学 |
|
2.3.5. 分析アルゴリズム 異常検知の1冊
-
2.3.5 異常検知の2冊参照
- 『入門 機械学習による異常検知―Rによる実践ガイド』のみ
- 『Pythonではじめる異常検知入門 基礎から実践まで』は内容が被りPythonなので削除
2.3.6. 分析アルゴリズム ネットワーク分析の1冊
- SNS全盛なのにネットワーク分析の本は私からするとややマイナーな感じのままですね。逆にいうと今から仕込んでおくといいですよ。
書名 | 内容 | |
---|---|---|
R |
ネットワーク分析 第2版 |
|
2.3.7. 分析アルゴリズム スパースモデリングの2冊
- 機械学習の本に少しだけ記載がありますが、しっかり学ぶのであれば下記の本など。
書名 | 概要 |
---|---|
スパース推定法による統計モデリング |
|
2.3.8. 分析アルゴリズム 強化学習(なし)
- やるんだったらPythonか。理論の本はあるけれども。
2.3.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の3冊
- この分野も類書が増えてきましたね。昔はRによる『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』か超むずの本しかなかったのですが。
- 理論が作りにくい分野でデータが大量に得られるようになったからでしょうか。
- 実務で直接(アルゴリズム内部では広い分野で使われてますね)ほとんど扱ったことがないのですが、最低限の知識として。
- 正直本記事著者青木はベイズ統計・ベイズ機械学習あたりが「しっくり」まだ来ていません。なんだろうこの感じ。今後もひたすら読んでいきます。
書名 | 内容 | |
---|---|---|
R |
RとStanではじめる ベイズ統計モデリングによるデータ分析入門 |
|
R |
データ解析のための統計モデリング入門―― 一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) |
|
R |
StanとRでベイズ統計モデリング (Wonderful R) |
|
2.3.10. 分析アルゴリズム 評価指標・XAIの2冊
- 機械学習モデルの評価指標はLogLossが一般的だけれど、一般の方には伝わらない。一般の方には正解率が伝わりやすいですがTrue/Negativeが偏っている時や多群の時は微妙。テーマやユーザーの方が何を求めているかによって評価指標の良し悪しを見極めて適用する必要がある
- 機械学習はブラックボックスと言われてきましたがある程度まで中身がわかるようになってきました。XAIという呪文みたいな名前ですが、機械学習の説明性はビジネス用途のデータ分析では重要と思います。
- Rでの本が見当たらずPython本ばかりですが『機械学習を解釈する技術』は付録にRでの実装があるため本書を採用しました。
書名 | 概要 | |
---|---|---|
共通 |
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋 |
|
R |
機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック |
|
2.4. データ可視化の6冊 1.9. 可視化の6冊
-
基礎集計のための可視化と、分析結果を共有するための可視化があるかと思います。ここでは特に分けずにリストしています。
-
データ構造、分析内容が複雑となってきており、ユーザーへの説明はもちろん分析者自身もその結果を共有するのに苦労します。可視化は今後ますます重要になってくると思います。
-
その他関連書を データ可視化の本10冊 にも書いております ←これも更新しなきゃだごめん
書名 | 概要 | |
---|---|---|
共通 |
指標・特徴量の設計から始める データ可視化学入門 |
|
共通 |
フィナンシャルタイムズ式 図解の技術 |
|
共通 |
DataStory: 人を動かすストーリーテリング |
|
共通 |
ハーバード・ビジネス・レビュー流 データビジュアライゼーション |
|
R |
実践Data Scienceシリーズ データ分析のためのデータ可視化入門 |
|
共通 |
ビジネスダッシュボード 設計・実装ガイドブック 成果を生み出すデータと分析のデザイン |
|
next break
-
データ可視化の基本が全部わかる本 収集・変換からビジュアライゼーション・データ分析支援まで 8/28発売
- これも惹かれる
2.5.1. 自然言語処理の6冊
-
自然言語処理はどういう業界でも必要なので絶対必要と思っていたけれど大規模言語モデルの大波がこんなに早く強くくるとは気づかなかった!
-
大規模言語モデル(LLM)の大波が来て分かりにくくなってますが従来通りのテキストマイニングなどもまだ需要ありです。
-
用語が色々あるので整理
-
テキストマイニングに似た言葉としてテキストアナリティクスがある。『テキストアナリティクスの基礎と実践』によると
定型化されていないテキストは、単語や文節などの単位に分割し、それらの出現頻度や共起関係(同時出現)などを集計し、データ解析やデータマイニングの手法で定量的に解析することができる。その分野を計量テキスト分析、テキストアナリティクス、またはテキストアナリシスと呼ぶが、情報処理やビジネスの分野ではテキストマイニングと呼ばれている。
-
また、正確な定義があるわけではないがテキストアナリティクスと言うとどちらかというと従来の頻度分析などであり、テキストマイニングというと従来の機械学習による分析は含んでいたが、大規模言語モデルなどは含まないようである。
-
-
Rによる自然言語処理は計量テキスト分析、テキストアナリティクス・テキストアナリシス、テキストマイニングがメインとなります。
-
関連記事を下記にも書いております
- 【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本#キストマイニング、自然言語処理 にもその他の本を書いています。
-
大規模言語モデル(LLM)とそれまでの技術の流れを入門用にまとめた
- 大規模言語モデル関連本を
書名 | 概要 | |
---|---|---|
R |
Rによるテキストマイニング入門 |
|
R |
Rによるテキストマイニング ―tidytextを活用したデータ分析と可視化の基礎 |
|
R |
統計学OnePoint テキストアナリティクス |
|
共通 |
自然言語処理の教科書 |
|
共通 |
IT Text 自然言語処理の基礎 |
|
共通 |
大規模言語モデルは新たな知能か ChatGPTが変えた世界 |
|
2.5.2. 生成AIの4冊
- Python105冊2.5.2. 生成AIの6冊参照
- LLMのプロンプトエンジニアリングはRユーザーでも有用、あと社内での生成AI導入については必要
- ほぼPythonオンリーなLLMモデル作成などはR対象外としました
- 言語が関係ない4冊が対象
- 面倒なことは ChatGPTにやらせよう ChatGPTを使い尽くす!
- 深津式プロンプト読本
- AI時代の質問力 プロンプトリテラシー 「問い」と「指示」が生成AIの可能性を最大限に引き出す
- 実践 生成AIの教科書――実績豊富な活用事例とノウハウで学ぶ
- 下記2冊はPythonオンリーなので削除
- (生成 Deep Learning 第2版―絵を描き、物語や音楽を作り、ゲームをプレイする)
- (ゼロから作るDeep Learning ❺―生成モデル編)
2.5.3. 時系列分析の7冊
- 時系列分析について私の経験が一番多いので多めになちゃいました。
- 需要予測をはじめどの業界でも出てくるデータだと思います。ただ、見せかけの回帰など時系列データならではの通常の回帰とは異なる点が多々あり、気をつけるためにもしっかりと学びたいところです。
- 元々PythonよりもRの方が対応している本が充実していたので、Rで完結できますね。
- その他関連書は 【決定版】需要予測・市況予測のための時系列分析の本リスト ←これも更新しなきゃだ
書名 | 内容 | |
---|---|---|
R |
時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装 いわゆる「隼本」。 > |
|
R |
Rによる時系列分析入門 |
|
R |
基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・ MCMC・粒子フィルター (Data Science Library) |
|
R |
カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2) |
|
共通 |
実践 時系列解析 |
|
共通 |
経済・ファイナンスデータの計量時系列分析 いわゆる沖本本 |
|
共通 |
点過程の時系列解析 |
|
2.5.4. 画像処理の1冊
- Python105冊2.5.4. 画像処理の1冊参照
- これはPython/R関係ないです
2.5.5. 地理空間の1冊
- 例えば緯度経度は単なる数値として扱えてしまうけれど、国レベルのデータであればx-y平面ではなく球面(地球規模ならば平たく潰れた球)であることを計算に加味する必要がある
- 狭い範囲でも近接した地域の効果により空間ラグなどを考慮する必要があり、地理空間は独特の扱いが必要
- Rですと他にも何冊か出ており地理空間を本格的に扱うならば重要な本ですが、他のカテゴリと比べて濃すぎるかなと思うので略です
書名 | 内容 | |
---|---|---|
R |
実践Data Scienceシリーズ Rではじめる地理空間データの統計解析入門 |
|
2.6. 機械学習周辺の手法1冊
- 何でも機械学習で解けばいいわけではなく目的やデータによってはこんな手法もありますよ、と知っておいたほうが解決に役立ちますよ
- ここらはRの本もかなり出てるはずですが不勉強で私があまり知らないので全体を俯瞰する本を
書名 | 内容 | |
---|---|---|
R |
データ分析のための数理モデル入門 |
|
2.7. 数学的基礎の4冊
- Python105冊2.7. 数学的基礎(微積・線形代数・集合と位相)の4冊と同じ
- これはPython/R関係ないです
2.8. プログラミングの1冊
- 絶対ではないのですがRで分析するならばtidyverse(その統計・機械学習版のtidymodels)の考え方は実質上必須ですね。
- Python版の方は機械学習以外のアルゴリズム本も含めていたのですがこちらはtidymodelsのみにしました。
書名 | 内容 | |
---|---|---|
R |
Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界 |
|
3. データ管理の2冊
-
Python105冊3. データ管理の3冊参照
- Pythonの関係ない下記2冊をご参照ください
- 実践的データ基盤への処方箋
- 世界標準のデータ戦略完全ガイド データセンスを磨く事例から、データの種類と仕組み、戦略策定のステップまで
- (Apache Spark徹底入門に対応する本はRでは略。大規模データを扱うならばRではなくPythonやSQLなど他の言語が良いはず)
- Pythonの関係ない下記2冊をご参照ください
4.1. 構築・運用(なし)
- Rでという本はなかなか見たことないな
4.2. 資格の2冊
- Python105冊4.2. 資格の2冊と同じ
- これはPython/R関係ないです
4.3. KAGGLEの3冊
- Python105冊4.3. KAGGLEの3冊を参照のこと
- RでKaggleをという本はあるのかな、不勉強で知りません。Python本で概念を学び、KaggleサイトでRコードも一部公開されているのでそういうので勉強していくのだろう
5. Next!の5冊
-
Python105冊5. Next!の5冊を参照のこと
- Python/R関係なし
- Human-in-the-Loop機械学習
- Federated Learning: プライバシー保護下における機械学習
- 量子技術入門
- Python本ですが
- Pythonではじめるオープンエンドな進化的アルゴリズム
- 古い従来の遺伝的アルゴリズムの本ならあると思いますが進化的アルゴリズムで和書はこれくらい
- リザバーコンピューティング:時系列パターン認識のための高速機械学習の理論とハードウェア
- Pythonコード付きですが考え方には関係なく、この分野も和書が極めて少ないため
- Pythonではじめるオープンエンドな進化的アルゴリズム
- Python/R関係なし