データサイエンス、データ分析、機械学習に必要な数学

Last updated at 2025-02-02Posted at 2017-03-26

2025年版Update記事を書きました

データサイエンス、データ分析、機械学習の専門書の前書きには「大学初年度の数学」≒微分積分と線形代数を前提としているものが多い。
それならば大学に行っている人はほとんど履修しているはずなのだが、その専門書を読むと全然歯が立たない事が多い。
かといって微分積分や線形代数のテキストを開くと、これが機械学習やデータ分析のどこに役立つのか全然分からず、途方に暮れる。

データの変化を捉えるから微分
変化を結果にまとめるから積分
多変量を扱いやすくするための線形代数

なのだがそんなお題目ではどうにもこうにも……
そんなときには下記の
『統計学のための数学入門30講 (科学のことばとしての数学)』

がいい。1冊で微分積分と線形代数の内容が入っている。また、それらが統計学にどうつながっているか、統計学のどこでどう使われているかが明示されている。「統計学のための」なので必ずしも機械学習やデータ分析向けではないのだが、機械学習のガチ本である、

『パターン認識と機械学習上』『パターン認識と機械学習下 (ベイズ理論による統計的予測)』の数学的補則
- 『パターン認識と機械学習の学習』の学習 1章
機械学習プロフェッショナルシリーズ『深層学習 (機械学習プロフェッショナルシリーズ)』の数学的補則
- 講談社機械学習プロフェッショナルシリーズ『深層学習』の学習第1章はじめに、第2章順伝播型ネットワークの学習

を書くにあたって本書をしょっちゅう参照している。
本書の目次は下記の通り。

第1部基礎と1変換関数の微積分
- 第1講基礎事項ア・ラ・カルト
- 第2講和と積
- 第3講順列・組み合わせと2項定理・多項定理
- 第4講極限
- 第5講微分
- 第6講関数の極値
- 第7講関数の展開
- 第8講不定積分
- 第9講定積分
- 第10講定積分の計算
- 第11講ガンマ関数とベータ関数
- 第12講数値積分
- 第13講広義積分
第2部線形代数
- 第14講ベクトルと行列の加減
- 第15講ベクトルと行列の積
- 第16講いろいろな行列
- 第17講行列の基本変形
- 第18講部分ベクトル空間
- 第19講行列のランク
- 第20講行列式
- 第21講射影と射影行列
- 第22講固有値と固有ベクトル
- 第23講対称行列の固有値と固有ベクトル
- 第24講分割行列による計算
第3部多変数関数の微積分
- 第25講偏微分と微分
- 第26講テイラーの公式と極値問題
- 第27講ベクトル微分と条件付き極値問題
- 第28講重積分
- 第29講重積分での変数変換
- 第30講平均ベクトルと分散共分散行列

2冊の内容を1冊に詰め込んでいるので解説や問題演習は少な目である。なので、書店などでパラパラとめくってみて「あーなんかやったことあるな」という感じなら本書を薦める。ただ、ぜんぜん分からないという感じなら、本書だけではキツイというか無理であろう。微分積分と線形代数のそれぞれについて、大学生向けの簡単な本が多数出ているのでそれをまずはやるのがいいと思う。でも本書を傍らに置いて、「いま勉強しているのはデータ分析のどこにつながっているのか」と意識することで勉強の意欲も湧くと思う。

p78 問題12.2(2) シンプソンの公式を確かめる問題の答えが間違っているようです。p206の答えは 6.4167 となってますが 6.401041666…… だと思います。自分の計算と、Rで検算したので間違いないと思います。正誤表が見つかりませんが。私のは2005年3月25日初版第1刷です。

もう、1冊薦めたい。
機械学習ってぶっちゃけて言えば、

データを説明するモデルを数式で表す
誤差を最小にするようにパラメータ（係数）を最小にする
簡単な式なら微分して=0と置いてしまえばおしまいなのだが、実際のデータではそうはいかない
誤差を最小にするようなアルゴリズムやり方があり、それを「最適化」と呼んでいる
で、その「最適化」の仕方もデータや条件により適したものが複数ある

という感じなので、その最適化も微分積分と線形代数を駆使するが微分積分や線形代数のテキストには通常は最適化の方法は書いてないので、今学んでいるものがどうつながるのかが分からない。それを埋める本があり、
『これなら分かる最適化数学―基礎原理から計算手法まで』

である。

第1章数学的準備
- 1.1 曲線と曲面
- 1.2 1次形式と2次形式
- 1.3 2次形式の標準形
第2章関数の極値
- 2.1 1次関数と2次関数
- 2.2 関数の勾配と等高線
- 2.3 関数の極値
- 2.4 ラグランジュの未定乗数法
第3章関数の最適化
- 3.1 勾配法
- 3.2 ニュートン法
- 3.3 共役勾配法
第4章最小二乗法
- 4.1 式の当てはめ
- 4.2 連立1次方程式
- 4.3 非線形最小二乗法
第5章統計的最適化
- 5.1 最尤推定
- 5.2 直線当てはめ
- 5.3 データの分類
- 5.4 不完全データからの最尤推定
第6章線形計画法
- 6.1 線形計画の標準形
- 6.2 可能領域
- 6.3 線形計画の基本定理
- 6.4 スラック変数
- 6.5 シンプレックス法
- 6.6 退化
- 6.7 人工変数
- 6.8 双対原理
第7章非線形計画法
- 7.1 非線形計画
- 7.2 ラグランジュ乗数
- 7.3 双対原理
第8章動的計画法
- 8.1 多段階決定問題
- 8.2 動的計画法
- 8.3 最適経路問題
- 8.4 ストリングマッチング
- 8.5 制約のある多段階決定問題

データサイエンス、データ分析、機械学習の専門書を読んだことのある方なら、この目次に関連する語をたくさん見たことがあるだろう。豊富な例題でこれらを学ぶことが出来る。ぜひ、ペンとノートで例題を追ってみよう。

この2冊をマスターしたらデータサイエンス、データ分析、機械学習の数式メインの専門書がかなり楽になると思われる。
っていうか、私は『統計学のための数学入門30講』は3週目、『これなら分かる最適化数学』はまだ1周目を終わっただけでまだ身についてないけどね。
無駄に流行を追うより、この2冊を繰り返すといいと思うよ。
といっても数式ばかりでは疲れるので、関連技術の本を並行して読むならば
データサイエンス、データ分析、機械学習関連の本をご参考になさってください。

255

308

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up