0
1

2024年版機械学習・データ分析の必須10冊+ガチ67冊+Next5冊=82冊(Rユーザー向け)

Posted at

本記事の目当て

  • ざくっと言いますと2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊はPythonメインで書いてますので、そのR版です。
  • 自己紹介しますと2015年から本格的にデータ分析業務を始め当初はRかつ時系列分析中心でした。2020年から部署異動でPythonメインとなり時系列分析以外も広く機械学習一般を扱うようになりました。
    • そのため、Rの本はやや古めで新しいRの本は追えてない面があります。
  • ただPython版と同じく機械学習・データ分析の分野で網羅的にRで実施の本を紹介しているリストがあまり見当たりませんので書きました。

背景というか感謝

凡例

2024年版機械学習・データ分析の必須OO冊 with R Python105冊との違い
1. 必須の10冊 1冊差替
2.1. ビジネス・テーマ定義の4冊 Python105冊と同じ(Python/R関係なし)
2.2. 前処理・特徴量エンジニアリングの3冊 2冊削除
2.3.1. 分析アルゴリズム 統計学の3冊 Python105冊と同じ(Python/R関係なし)
2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の3冊 2冊削除
2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の3冊 1冊削除
2.3.4. 分析アルゴリズム 因果推論・因果探索の5冊 1冊削除
2.3.5. 分析アルゴリズム 異常検知の1冊 1冊削除
2.3.6. 分析アルゴリズム ネットワーク分析の1冊 1冊差替
2.3.7. 分析アルゴリズム スパースモデリングの1冊 1冊削除
2.3.8. 分析アルゴリズム 強化学習(なし) 本記事ではリストアップなし
2.3.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の3冊 1冊削除3冊差替
2.3.10. 分析アルゴリズム 評価指標・XAIの2冊 2冊削除1冊差替
2.4. データ可視化の6冊 1冊差替
2.5.1. 自然言語処理の6冊 3冊差替
2.5.2. 生成AIの4冊 2冊削除
2.5.3. 時系列分析の7冊 4冊差替
2.5.4. 画像処理の1冊 Python105冊と同じ(Python/R関係なし)
2.5.5. 地理空間の1冊 1冊差替
2.6. 機械学習周辺の手法1冊 3冊削除1冊差替
2.7. 数学的基礎の4冊 Python105冊と同じ(Python/R関係なし)
2.8. プログラミングの1冊 2冊削除
3. データ管理の2冊 1冊削除
4.1. 構築・運用(なし) 本記事ではリストアップなし
4.2. 資格の2冊 Python105冊と同じ(Python/R関係なし)
4.3. KAGGLEの3冊 Python105冊と同じ(代替本がないのでこのまま)
5. Next!の5冊 Python105冊と同じ(一部Python/R関係あり)
  • 書籍紹介での凡例
    • 書籍の一覧表の左端欄は
      • R
        • 今回の記事で取り上げたRの本
      • 共通
        • Python版でも取り上げた本だが説明の都合上再録
    • next break

      • 記事時点で発売前だが本リストに入りそうな候補
  • 図の凡例

全体俯瞰

1. 必須の10冊

  • データサイエンティスト協会の「ビジネス」「データサイエンス」「データエンジニアリング」3つの要素が必要だよ、に合わせてみました
  • 冒頭でも述べましたがこの10冊を読んでおくと、「なんもわからん」がかなり減ると思います
  • そして、後続の各カテゴリの本へ接続しやすいのかな
カテゴリ 書名 内容
R 最初の1冊 Rによるデータサイエンス(第2版):
データ解析の基礎から最新手法まで

  • 類書もたくさん出てきたので別の本でもいいかもですが、まずは機械学習とは何ぞやをコーディングで畳み込むために定番の機械学習アルゴリズムを試せる本がいい。別で見つけているならばその本で、わからなければ本書で。私はこの本の初版をまず最初にやりました。
  • 代表的な統計・機械学習手法を実行可能。
  • 数式抜きで解説している本だと結局分からないですが理論的は本は難しい。ので、手を動かして実際に分析してみるのがよいと思います。
  • この本では理論はほぼ解説していないので、まず習うより慣れろって感じです。
  • この本の初版についてで恐縮ですが、機械学習パッケージを統合したcaretを用いて本書のコードを実行した記事『Rによるデータサイエンス』をcaretで再現するを書きました。

2.

2.1. ビジネス・テーマ定義の4冊

2.2. 前処理・特徴量エンジニアリングの3冊

  • Python105冊2.2. 前処理・特徴量エンジニアリングの5冊参照
    • Rで特徴量エンジニアリングがっちりの本を私が不勉強で知らないですが
    • 『入門 サンプルサイズ設計』は言語関係なし
    • 『欠測データ処理』はR
    • 『Kaggleで勝つデータ分析の技術』はPythonですが必須なノウハウが
    • (『機械学習のための特徴量エンジニアリング』『事例で学ぶ特徴量エンジニアリング』も言語によらないノウハウはありますがPythonベースのため削除)

2.3.1. 分析アルゴリズム 統計学の3冊

2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の3冊

  • Python105冊2.3.2. 分析アルゴリズム 機械学習アルゴリズム-1の5冊参照
    • の3冊(優しい本とバイブルと間が開きすぎだがちょうどいいのが見当たらず『はじめてのパターン認識』を繰り返し読むしかないか
    • (Optunaによるブラックボックス最適化), (Pytyhonで始める教師なし学習)は考え方は参考になるはずだがPython実装なので削除

2.3.3. 分析アルゴリズム 機械学習アルゴリズム-2(深層学習)の3冊

  • 深層学習するならばRでできないことはないですがやはりPythonですね。
  • でもRユーザーで深層学習は深くは実施しないものの基本的なところは押さえておきたいということもあると思うので、下記を。
  • Python105冊2.3.3. 機械学習アルゴリズム-2(深層学習)の4冊参照
    • このうち下記3冊は言語が関係ないので採用
      • ディープラーニングを支える技術
      • ディープラーニングを支える技術2
      • 深層学習 改訂第2版
      • (ゼロから作るDeep Learningは明らかにPythonなので略)

2.3.4. 分析アルゴリズム 因果推論・因果探索の5冊

  • この分野はRの本も充実してますね(というかRの方が元々充実していた)
  • 相関があっても因果がないと良く言われますがならば因果を見出すには?についてもっと必要とされると思うのですがなかなか来ないなと思っていたら、ここ1-2年で類書がどかんと増えました。
  • ビジネスでデータ分析をするのであれば単に予測するだけではなく売上増やコストダウンを目指すので、その結果を導き出すための原因探索がもっともっと求められますよ!
  • ということでより深くは別に記事を書いてますが基礎となる本を示します
書名 内容
共通 「原因と結果」の経済学―――データから真実を見抜く思考法
  • まずはぜひこの1冊。
  • 前提知識不要で、相関と因果など間違えやすいところが身につく。データ分析、政策等のかなりの専門家でもかなり間違っている人がいる。因果推論を扱うならまずは本書の内容を頭に叩き込む事が一番重要だと思う。
  • 因果推論の基本の下記概念を数式なしで一通り知ることができます。
    • ランダム化比較実験(RCT)
    • 自然実験
    • 差の差分析
    • 操作変数法
    • 回帰不連続デザイン
    • マッチング法(傾向スコア)
    • 回帰分析
R 効果検証入門 \n〜正しい比較のための因果推論\n/計量経済学の基礎
R 統計的因果推論の理論と実装
  • 因果推論の2大流派であるRubin流とPearl流の解説から因果推論の代表手法である
    • 回帰分析
    • 共分散分析
    • 傾向スコア
    • 操作変数法
    • 回帰不連続デザイン
    がRで試せます。
  • またRubin流の重要な考え方である反事実が欠測データあるに対応して欠測データに対する対応も詳しいです。
  • 効果検証入門よりも各手法をより詳しくという感じで本書でRにより因果推論手法を一通り試せると言っていいと思います。
共通 因果推論入門〜ミックステープ
  • 本書の特徴は
  • ルービン派、パール派に偏らず理論を網羅的に紹介していること。数式もありますがそれで押すのではなくコード例で理解を促していること。
  • 理論の解説がメインですがコード例が豊富。書籍内ではRコードですがサポートサイトにStataやPythonのコード例あり。
  • また本文内に類書との差別化として下記があり、本書を読めば因果推論の主だった手法を網羅できると言っているようです。
  • Imbens and Rubin (2015)(青木注『インベンス・ルービン 統計的因果推論』)は潜在アウトカムモデル、実験デザイン、マッチングと操作変数法については解説していますが、非巡回有向グラフ(DAG)、回帰不連続デザイン、パネルデータ、合成コントロール方については扱っていません。一方、Morgan and Winship (2014)は、DAG、潜在アウトカムモデル、操作変数法について解説していますが、回帰不連続デザイン、とパネルデータについては軽くしかふれられていませんし、Athey and Imbens (2017b)が過去15年間で因果推論における重要な革新と呼んだ合成コントロール法についても扱っていません。Angrist and Picheke (2009)は私のニーズにとても近いですが、私が極めて有用と考えている合成コントロール法やグラフィカルモデルについてふれられていません。
  • 本書まで学べば余程深く求められない限りひと段落マスターと言って良いのではないかと思います(本式にはインベンス・ルービンが必要だろうけれど
共通 因果推論の科学
  • なぜ因果ということを考える必要があるのかなど歴史を通じて現状までを解説した本。
  • ただ、「因果推論の入門に良い」という書評がありますが、この本をいきなり読んで理解できるのだろうか疑問。ある程度学んだ後に戻ってきて読むと興味深く読めると思う。

2.3.5. 分析アルゴリズム 異常検知の1冊

  • 2.3.5 異常検知の2冊参照
    • 『入門 機械学習による異常検知―Rによる実践ガイド』のみ
    • 『Pythonではじめる異常検知入門 基礎から実践まで』は内容が被りPythonなので削除

2.3.6. 分析アルゴリズム ネットワーク分析の1冊

  • SNS全盛なのにネットワーク分析の本は私からするとややマイナーな感じのままですね。逆にいうと今から仕込んでおくといいですよ。
書名 内容
R ネットワーク分析 第2版
  • ネットワーク分析で主要な方法をコード付きで学べます。
  • 距離、ネットワーク構造、中心性、類似性、統計分析、SNSなど社会ネットワーク分析、複雑ネットワークまでネットワーク分析の分野をほぼ網羅しています。

2.3.7. 分析アルゴリズム スパースモデリングの2冊

  • 機械学習の本に少しだけ記載がありますが、しっかり学ぶのであれば下記の本など。
書名 概要
スパース推定法による統計モデリング
  • 入門としてはやや難しめですが、Rによるコード例と理論についての解説もあります

2.3.8. 分析アルゴリズム 強化学習(なし)

  • やるんだったらPythonか。理論の本はあるけれども。

2.3.9. 分析アルゴリズム ベイズ統計・ベイズ機械学習の3冊

  • この分野も類書が増えてきましたね。昔はRによる『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』か超むずの本しかなかったのですが。
  • 理論が作りにくい分野でデータが大量に得られるようになったからでしょうか。
  • 実務で直接(アルゴリズム内部では広い分野で使われてますね)ほとんど扱ったことがないのですが、最低限の知識として。
  • 正直本記事著者青木はベイズ統計・ベイズ機械学習あたりが「しっくり」まだ来ていません。なんだろうこの感じ。今後もひたすら読んでいきます。
書名 内容
R RとStanではじめる
ベイズ統計モデリングによるデータ分析入門

  • 理論の解説もあり、初学にはかなり難しいと思いますが、本書もコード例が豊富なのでこれもやはり習うより慣れろだと思います。
  • 統計モデリングだと後述の『データ解析のための統計モデリング入門』(いわゆる「みどり本」)が定番とされてきましたが、みどり本はWinBUGSなので、習うより慣れろ派としては、現在主流のStanを扱い、作図も含めたコード例が豊富なこちらのほうが導入にはよいと思います。
R データ解析のための統計モデリング入門――
一般化線形モデル・階層ベイズモデル・MCMC
(確率と情報の科学)

  • 統計モデリングの定番の本「みどり本」。数式は少ないが入門と考えると理解が難しい点はある。
  • ベイズだけではなく「統計モデリングとは」を考えるならばぜひ読む本だと思う。
  • Rで実行しながら学ぶがWinBugsメイン。
  • 一般化線形モデルがメインだが、世の中をモデル化する時の注意点など有用であり、一般化線形モデルを扱う必要がなくても一読の価値ありと思う。
  • 後半ではMCMCを扱っている。
R StanとRでベイズ統計モデリング (Wonderful R)
  • 「アヒル本」として有名。
  • Rにより問題を一つずつ試しながら進められる。Stan
  • みどり本よりもベイズに特化かつ問題演習多め

2.3.10. 分析アルゴリズム 評価指標・XAIの2冊

  • 機械学習モデルの評価指標はLogLossが一般的だけれど、一般の方には伝わらない。一般の方には正解率が伝わりやすいですがTrue/Negativeが偏っている時や多群の時は微妙。テーマやユーザーの方が何を求めているかによって評価指標の良し悪しを見極めて適用する必要がある
  • 機械学習はブラックボックスと言われてきましたがある程度まで中身がわかるようになってきました。XAIという呪文みたいな名前ですが、機械学習の説明性はビジネス用途のデータ分析では重要と思います。
    • Rでの本が見当たらずPython本ばかりですが『機械学習を解釈する技術』は付録にRでの実装があるため本書を採用しました。
書名 概要
共通 評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
  • 評価指標については機械学習解説本の中で触れられてはいましたが、その理論の解説がメインであり、どうビジネスのKPIとつなげるか等の解説は手薄だったと思います。
  • Amazon紹介ページにあるように、本書ではデータサイエンスの空間とビジネスの空間での「指標」が異なることを意識し、それらの「指標」の特徴をしっかり把握した上で、どうつないでいくか、を解説してくれています。
  • 「評価指標でXXXという最高のスコアが出た!」と喜び勇んで、機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが、ビジネス上のKPIと相関が高い評価指標を選んでいなかったために、KPIの推移を見てみると大した変化がありませんでした。
    (中略)
    このような状況が起きてしまう背景にはさまざまな原因が考えられますが、あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。
    (中略)
    本書はこれらの疑問に答えるため、機械学習の良し悪しを決める評価指標を軸に、解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか、その原理を解説していきます。この原理が普遍的なものであれば、ビジネスがどんなものであっても応用できると考えることができます。
R 機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック
  • Pythonでのコーディング例の本ですがRによる実装の付録があり、他の本でRでの本がないため採用
  • XAIの代表的な手法を網羅しています。
    • 特徴量の重要度(Permutation Importance)
    • 特徴量と予測値の関係(Partial Dependence:部分依存プロット)
    • インスタンスごとの異質性(Individual Conditional Expectation)
    • 予測の理由(SHapley Additive exPlanations:SHAP)

2.4. データ可視化の6冊 1.9. 可視化の6冊

  • 基礎集計のための可視化と、分析結果を共有するための可視化があるかと思います。ここでは特に分けずにリストしています。

  • データ構造、分析内容が複雑となってきており、ユーザーへの説明はもちろん分析者自身もその結果を共有するのに苦労します。可視化は今後ますます重要になってくると思います。

  • その他関連書を データ可視化の本10冊 にも書いております ←これも更新しなきゃだごめん

書名 概要
共通 指標・特徴量の設計から始める データ可視化学入門
  • 他の本は、可視化までのデータ集計はすでにあって、「どう表現すると読み手に伝わるか」がメインなのですが、本書は「そのデータの特徴を表すのにはどのような加工、まとめ方があるか」の方にメインを置いているんですね、そこがいい。
  • つまりデータ可視化だけではなく、特徴量エンジニアリングはどうしたら機械学習に適したデータ加工ができるかですが、そのなんていうんだろう、可視化エンジニアリングともいうべき内容なんですよ。
  • 数量を把握する、メカニズムをとらえる、多変数をとらえる、データの分布をとらえる、関係性をとらえる、パターンをとらえる、の観点でノウハウを教えてくれます。
  • 『データ視覚化のデザイン』とどちらを10冊に入れようか迷ったのですが、『データ視覚化のデザイン』は万人に必須、本書はどちらかというとデータ分析するならば必須という感じですかね。
共通 フィナンシャルタイムズ式 図解の技術
  • フィナンシャルタイムズの編集者が図解を9カテゴリ74図に分け、丁寧に解説しています。
  • グラフはなんとなく描くものではなく、何を示したいかにより使い分けるということです
  • 74図中12図ですがまだ、 図解の言語をすべてPythonで実装例を作成する目論見 を公開しています。
共通 DataStory: 人を動かすストーリーテリング
  • 精度が良いモデルができてもビジネス展開できなければ意味がない。
  • 上司や現場の担当に「RMSEが○○で……」では伝わらず分かりやすくストーリー立てた可視化による説明が必要となる。
  • 可視化のライブラリ解説や、スライド作成等の本はありますがAmazon紹介文にあるように、下記のような内容の本は今までほとんどなかったと思います。
    「共感」というレンズを通してデータを説明すること
    データをストーリーにして相手の行動を促す方法
    上司や不特定多数の人に承認される提案書のつくりかた
    グラフの所見をわかりやすく書き、注釈を付ける方法
    スライドの構成とレイアウトについてのコツ
    データに命を吹き込み、記憶に残るものにして相手の行動を促す方法
共通 ハーバード・ビジネス・レビュー流 データビジュアライゼーション
  • 前著『フィナンシャルタイムズ式 図解の技術』とコンセプトは被ります
  • フィナンシャルタイムズとこちらはハーバード・ビジネス・レビューのノウハウの違い
  • どちらもビジネス系の複雑なデータをどうわかりやすく表現するかと考え抜いている専門家のノウハウなので有益ですが強いてあげると、前者は「図解の言語」としてシステマティックに分類を、本書はDataStoryと同じくどういうストーリーで表現するかに重きを置いてますが、こだわるならばどちらも読んだ方が良いと思います
  • 直接この本についてではにですが同じチートシートをPython/matplotlibで実装している記事がありましたケース別データの可視化パターンとpythonによる実装
R 実践Data Scienceシリーズ データ分析のためのデータ可視化入門
  • Rのggplot2、tidyverseによる統一感のある記述で分かりやすい図表が描けます。
  • 単に関数の使い方だけでなく可視化の注意点なども豊富です。
  • 本書は『Data Visualization: A Practical Introduction』の和訳です。可視化なら英語でも分かるだろうと私は原書で読みましたが、英語の練習にもよいかと思います。コード例はRで結果はグラフなので英語がわからない点も大きな問題はないです。
共通 ビジネスダッシュボード 設計・実装ガイドブック 成果を生み出すデータと分析のデザイン
  • CDP(カスタマーデータプラットフォーム)の第一人者トレジャーデータの専門家がダッシュボードについて解説した本
  • トレジャーデータのツールに依ることなく一般論として語られているのでツール関係なくノウハウを学べます

2.5.1. 自然言語処理の6冊

  • 自然言語処理はどういう業界でも必要なので絶対必要と思っていたけれど大規模言語モデルの大波がこんなに早く強くくるとは気づかなかった!

  • 大規模言語モデル(LLM)の大波が来て分かりにくくなってますが従来通りのテキストマイニングなどもまだ需要ありです。

  • 用語が色々あるので整理

    • テキストマイニングに似た言葉としてテキストアナリティクスがある。『テキストアナリティクスの基礎と実践』によると

      定型化されていないテキストは、単語や文節などの単位に分割し、それらの出現頻度や共起関係(同時出現)などを集計し、データ解析やデータマイニングの手法で定量的に解析することができる。その分野を計量テキスト分析テキストアナリティクス、またはテキストアナリシスと呼ぶが、情報処理やビジネスの分野ではテキストマイニングと呼ばれている。

    • また、正確な定義があるわけではないがテキストアナリティクスと言うとどちらかというと従来の頻度分析などであり、テキストマイニングというと従来の機械学習による分析は含んでいたが、大規模言語モデルなどは含まないようである。

  • Rによる自然言語処理は計量テキスト分析、テキストアナリティクス・テキストアナリシス、テキストマイニングがメインとなります。

  • 関連記事を下記にも書いております

書名 概要
R Rによるテキストマイニング入門
  • Rの基礎説明、RMecabによる分かち書き(文章から単語に切り分ける)、ウェブからのテキスト収集、テキスト分類、Twitterタイムラインの分析など。話題のトピックモデルについても数ページながら言及あり。
  • word2vecなどはないのが残念だがテキストマイニングの基礎的なことは一通り試せる。
R Rによるテキストマイニング ―tidytextを活用したデータ分析と可視化の基礎
  • tidyverseの自然言語処理はんtidytextによる本
  • テキストマイニング系ってあっちゃこっちゃの関数やライブラリをつなぎ合わせた感があり、途中であるいはコードをあとで見直すと「俺何やってんだっけ」と見失いがちなのだが、tidytextという考え方で処理をスマートに記述するもの。自然言語処理もPythonが主流になりがちだけどRで実施するのであれば本書程度は慣れておくべきと思う。
R 統計学OnePoint テキストアナリティクス
  • ここまでの3冊は似ているところもあるので違いを言うと
  • 『Rによるテキストマイニング入門』は分かち書きから基礎的な処理
  • 『Rによるテキストマイニング ―tidytextを活用したデータ分析と可視化の基礎』はテキストのきれいな処理の仕方
  • 『統計学OnePoint テキストアナリティクス』はもう少し突っ込んで多変量解析や機械学習などでテキストをどう分析するか
    というところか。
共通 自然言語処理の教科書
  • 前書きに
    本書は開発に関するハンドブックになることを目指しているので、研究に興味があるという人は、放送大学の教科書『自然言語処理〔三訂版〕』(放送大学教育振興会, 2023)または『IT Text 自然言語処理の基礎』(オーム社, 2022)をお読みください。
    とあり、まさにエンジニアの入門用の教科書ですね。
  • 数式は最小限で従来の自然言語処理からTransformerや大規模言語モデル、そしてコーパスなどの話題を広く扱っています。
  • 前書きにある通りこの本の後に次の『IT Text 自然言語処理の基礎』を読むと良さそう。
共通 IT Text 自然言語処理の基礎
  • がち
  • 大規模言語モデルの流行でプロンプトがどうしたこうしたと浮ついた本がたくさん出ていますが、それだけでは解決しないし、すぐ流行り廃りはあるし
  • でもインターネットの移ろいがあってもTCP/IPが全く揺るがないように根っこの技術を学ぼうじゃないか
    第1章 自然言語処理の概要
    第2章 自然言語処理のための機械学習の基礎
    第3章 単語ベクトル表現
    第4章 系列に対するニューラルネットワーク
    第5章 言語モデル・系列変換モデル
    第6章 Transformer
    第7章 事前学習済みモデルと転移学習
    第8章 系列ラベリング
    第9章 構文解析
    第10章 意味解析
    第11章 応用タスク・まとめ
共通 大規模言語モデルは新たな知能か ChatGPTが変えた世界
  • 大規模言語モデルがこんな流行るとは!
  • 雨後の筍のように便乗本が出ていますがほとんどは消えます。この記事を読むような方は本質を
  • 難しいのですが、PFNの岡野原さんが分かりやすい解説書を出してくれました

2.5.2. 生成AIの4冊

  • Python105冊2.5.2. 生成AIの6冊参照
  • LLMのプロンプトエンジニアリングはRユーザーでも有用、あと社内での生成AI導入については必要
  • ほぼPythonオンリーなLLMモデル作成などはR対象外としました
  • 言語が関係ない4冊が対象
    • 面倒なことは ChatGPTにやらせよう ChatGPTを使い尽くす!
    • 深津式プロンプト読本
    • AI時代の質問力 プロンプトリテラシー 「問い」と「指示」が生成AIの可能性を最大限に引き出す
    • 実践 生成AIの教科書――実績豊富な活用事例とノウハウで学ぶ
  • 下記2冊はPythonオンリーなので削除
    • (生成 Deep Learning 第2版―絵を描き、物語や音楽を作り、ゲームをプレイする)
    • (ゼロから作るDeep Learning ❺―生成モデル編)

2.5.3. 時系列分析の7冊

  • 時系列分析について私の経験が一番多いので多めになちゃいました。
  • 需要予測をはじめどの業界でも出てくるデータだと思います。ただ、見せかけの回帰など時系列データならではの通常の回帰とは異なる点が多々あり、気をつけるためにもしっかりと学びたいところです。
  • 元々PythonよりもRの方が対応している本が充実していたので、Rで完結できますね。
  • その他関連書は 【決定版】需要予測・市況予測のための時系列分析の本リスト ←これも更新しなきゃだ

書名 内容
R 時系列分析と状態空間モデルの基礎:
RとStanで学ぶ理論と実装

いわゆる「隼本」。
>
  • Rで時系列分析をするならばまず最初の1冊として必読
  • 下記、時系列分析で必要な知識の概要がほぼ網羅されており分野を俯瞰出来、Rで試しながら読み進められる。
    • 時系列データの特徴
    • ARIMA、VAR、GARCHをはじめとする時系列データの統計モデル
    • それを拡張している状態空間モデル
    • 状態空間モデルのエンジンとしてのベイズ推論やMCMC
  • 本書でこの分野を一通り試した後、後述の「沖本本」『経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)』で理論を補強するのがRで時系列分析をする王道かと思います(この記事の著者青木はこの本が出る前に学んだので苦労した、、、)。
  • また、著者のブログ「Logics of Blue」は時系列分析を初めデータ分析一般で非常に参考になります。
R Rによる時系列分析入門
  • 地味で古くあまり知られていない本しかも品切れでAmazonだと中古しかない模様。
  • でもRでやるならば隠れ推し本。私はこの本でコード写経して時系列データの特徴を身につけた。
  • 状態空間など記載なく他書と比べて範囲は狭目ですが、周期・トレンドや自己相関といった時系列データの特性に対してRのライブラリや関数を用いて1つ1つコード例と説明があります。隼本などがある今となってはそちらで良いのかもしれませんがRでやるならば一度手に取っても良いかも。
R 基礎からわかる時系列分析
―Rで実践するカルマンフィルタ・
MCMC・粒子フィルター
(Data Science Library)

  • 「隼本」の方が時系列データの特徴など満遍なく、本書は状態空間モデルに重点といった感じです。
  • 本書もコード例が豊富ですが、時系列データの取り扱いが初めてならば、「隼本」→(状態空間モデルが必要ならば)→本書、という位置づけでしょうか。
R カルマンフィルタ
―Rを使った時系列予測と状態空間モデル―
(統計学One Point 2)

  • 状態空間モデルとは時系列の値を、実際の値とそれを生み出す内部の状態に分けて、柔軟にモデリングしようというものです。それの上手い計算方法としてカルマンフィルタがあるって感じです。
  • そのカルマンフィルタについての解説と豊富なRコード例となっています。Rで状態空間モデルを扱うならば慣れるのにちょうど良い内容かと思います。
  • カルマンフィルタに特化した本まで挙げるのは他のカテゴリよりもここだけ少し濃くなってますが記事著者青木が時系列分析が長かったので
共通 実践 時系列解析
  • RとPythonを縦横無尽に使うなかなか無茶な本。だけど統計的な時はRが強いし機械学習ならばPythonが強く、時系列分析は両方の面があるので、無理に1言語にすることもないしな。
  • 時系列の前処理・EDA、ARIMAなどの時系列モデル、状態空間モデル、深層学習による時系列解析、ヘルスケア・金融・政府統計などの応用面など多岐にわたる解説とコード例がある。
  • 基礎を学ぶというよりも、他書である程度学んだ人がネタ探し、弱点補強的に読むと良いのではないかと思う。
共通 経済・ファイナンスデータの計量時系列分析 いわゆる沖本本
  • 「沖本本」として定評がある教科書(私は読んでいないが岩波書店の『時系列解析入門』も定評があるが品切れ。あるいはその改訂版『Rによる 時系列モデリング入門』でも良いかもしれない)。
  • 基礎概念/ARMA過程/予測/VARモデル/単位根過程/見せかけの回帰と共和分/GARCHモデル/状態変化を伴うモデル、と重要な概念についての解説があります。状態空間モデルはないですがそれ以外の主だったところは全て押さえていると思います。
  • 難しいけれど章末問題(数理的な、コードを書く的な両方)を解くことで理解が深まる。というか昔はこれくらいしかまともな本がなかったので。やや難しいので、数学が苦手な方は他のコード例が豊富な本で慣れながら本書を読むといいと思う。
  • Rのみですが、章末問題を解いたコード例をQiitaに上げております 『経済・ファイナンスデータの計量時系列分析』章末問題をRで解く-第1章時系列分析の基礎概念-
共通 点過程の時系列解析
  • 地味。いわゆる時系列解析に似てそうで全然似ていない考え方が必要となる。データ分析本の推奨でまず出てこない。
  • だけどですよ、出版社の本書紹介から引用すると
    点過程の時系列とは,データがある着目するイベントの発生時刻の集合として特徴付けられるようなタイプの時系列である。実世界の様々な現象が点過程として表現することができ,例えば自然現象としては,地震,神経細胞のスパイク発火,遺伝子発現などが考えられる。さらに近年,人間の社会行動に関する様々な大規模データが蓄積され,それが利用可能になってきたことを背景として,金融取引,保険事故,人々のコミュニケーション,SNS上でのユーザーの活動等のデータを解析するために,点過程が用いられることが増えており,点過程の応用範囲は急速に拡大している。
  • そう、金融取引やSNSデータなど今後引き合いがめっちゃ増えるのに誰も注目しておらず和書類書もほとんどない。これは狙い目です。
  • 残念ながら100冊からは落としましたがイベント時系列解析入門ウェブデータの機械学習なども参考になるかと思います

2.5.4. 画像処理の1冊

2.5.5. 地理空間の1冊

  • 例えば緯度経度は単なる数値として扱えてしまうけれど、国レベルのデータであればx-y平面ではなく球面(地球規模ならば平たく潰れた球)であることを計算に加味する必要がある
  • 狭い範囲でも近接した地域の効果により空間ラグなどを考慮する必要があり、地理空間は独特の扱いが必要
  • Rですと他にも何冊か出ており地理空間を本格的に扱うならば重要な本ですが、他のカテゴリと比べて濃すぎるかなと思うので略です
書名 内容
R 実践Data Scienceシリーズ Rではじめる地理空間データの統計解析入門
  • 地理空間の基本概念(空間相関、空間統計量、バリオグラム等に本書はコード例付きで詳しく触れています。

2.6. 機械学習周辺の手法1冊

  • 何でも機械学習で解けばいいわけではなく目的やデータによってはこんな手法もありますよ、と知っておいたほうが解決に役立ちますよ
  • ここらはRの本もかなり出てるはずですが不勉強で私があまり知らないので全体を俯瞰する本を
書名 内容
R データ分析のための数理モデル入門
  • Rでの本ではなく言語は関係なく解説の本(Pythonでは泣く泣く落としたのでこちらに)
  • 機械学習と似てるけれど違う「数理モデル」全般の解説書
  • 数理最適化、微分方程式、時系列モデル、機械学習、強化学習、ネットワーク科学、とさわりだけの記述もありますが機械学習の解説もあるのでどこが似ていてどこが違うかの整理などにも役立つと思います

2.7. 数学的基礎の4冊

2.8. プログラミングの1冊

  • 絶対ではないのですがRで分析するならばtidyverse(その統計・機械学習版のtidymodels)の考え方は実質上必須ですね。
  • Python版の方は機械学習以外のアルゴリズム本も含めていたのですがこちらはtidymodelsのみにしました。
書名 内容
R Rユーザのためのtidymodels[実践]入門
〜モダンな統計・機械学習モデリングの世界

  • Rのど初心者ユーザーでなければご存じと思いますが、元々Rは便利な関数な集まりみたいなところがあり、現代視点でプログラミング言語として見るとやぼったいというか増改築を繰り返して「綺麗じゃない」感がありました。
  • そこにtidyverseという綺麗に書こうぜという考えが生まれtidyverseの元にRの再整備が進みました。それを統計や機械学習で実践したのがtidymodelsですね。つまりRでデータ分析を行うならば必須の考え方です。
  • データの準備、回帰、分類、運用、ハイパーパラメーターチューニング、自然言語処理の入り口までをtidymodelsで扱えるという本です。

3. データ管理の2冊

  • Python105冊3. データ管理の3冊参照
    • Pythonの関係ない下記2冊をご参照ください
      • 実践的データ基盤への処方箋
      • 世界標準のデータ戦略完全ガイド データセンスを磨く事例から、データの種類と仕組み、戦略策定のステップまで
    • (Apache Spark徹底入門に対応する本はRでは略。大規模データを扱うならばRではなくPythonやSQLなど他の言語が良いはず)

4.1. 構築・運用(なし)

  • Rでという本はなかなか見たことないな

4.2. 資格の2冊

4.3. KAGGLEの3冊

  • Python105冊4.3. KAGGLEの3冊を参照のこと
  • RでKaggleをという本はあるのかな、不勉強で知りません。Python本で概念を学び、KaggleサイトでRコードも一部公開されているのでそういうので勉強していくのだろう

5. Next!の5冊

  • Python105冊5. Next!の5冊を参照のこと
    • Python/R関係なし
      • Human-in-the-Loop機械学習
      • Federated Learning: プライバシー保護下における機械学習
      • 量子技術入門
    • Python本ですが
      • Pythonではじめるオープンエンドな進化的アルゴリズム
        • 古い従来の遺伝的アルゴリズムの本ならあると思いますが進化的アルゴリズムで和書はこれくらい
      • リザバーコンピューティング:時系列パターン認識のための高速機械学習の理論とハードウェア
        • Pythonコード付きですが考え方には関係なく、この分野も和書が極めて少ないため
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1