0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

マセマでわかるニューラルネットワーク

Posted at

【講義 1 ベクトルと空間座標の基本】
§1. ベクトル(大きさと向きをもった量)
§2. 空間座標における直線と平面
● ベクトルと空間座標の基本 公式エッセンス

【NNとの関係】
・ニューラルネットの入力は n 次元ベクトルとして扱う
・直線・平面は線形変換 Wx + b の幾何学的イメージ
・勾配(gradient)はベクトルで表現される
・多次元空間上で点を扱う概念が NN の基礎

【講義 2 行列】
§1. 行列の和と積
§2. 行列のさまざまな表現法
§3. 2 次の正方行列でウォーミングアップ
● 行列 公式エッセンス

【NNとの関係】
・全結合層(Linear Layer)は行列演算そのもの
・行列積 W @ x が NN の主演算
・バイアス b は行列の加法的拡張として扱われる
・行列の形状(shape)の理解が NN 実装で最重要

【講義 3 行列式】
§1. 3 次の行列式とサラスの公式
§2. n 次行列式の定義
§3. n 次行列式の計算
● 行列式 公式エッセンス

【NNとの関係】
・行列式 det(W) は変換のスケール量(体積変化)
・正則性 det(W) ≠ 0 は変換が可逆であることを示す
・固有値の積としての det(W) は NN の安定性に関連
・勾配爆発・消失は固有値(=行列式の要素)に深く依存

【講義 4 連立 1 次方程式】
§1. 逆行列と連立 1 次方程式の基本
§2. 行列の階数と一般の連立 1 次方程式
● 連立 1 次方程式 公式エッセンス

【NNとの関係】
・Wx = y の構造は NN の逆問題・入力再構成と同じ
・Rank(W)(階数)は表現能力=情報保持能力
・階数落ち(Rank deficiency)は情報喪失を意味し、ボトルネック層に対応
・Gauss 消去法は最適化アルゴリズムと相似性がある

【講義 5 線形空間(ベクトル空間)】
§1. 線形空間と基底
§2. 部分空間
● 線形空間 公式エッセンス

【NNとの関係】
・特徴量はベクトル空間上の点
・基底は特徴量の最小構成
・部分空間は「NN が抽出できる情報の範囲」
・表現学習とは、入力空間の新しい基底を学習する過程

【講義 6 線形写像】
§1. 線形写像
§2. Ker f と商空間
● 線形写像 公式エッセンス

【NNとの関係】
・線形写像 = NN の 1 層
・核 Ker(W) は NN が消してしまう情報(不可逆性)
・像 Im(W) は NN が生成可能な表現の空間
・商空間は特徴量の“抽象化”を理解する概念的基盤

【講義 7 行列の対角化】
§1. 行列の対角化(I)
§2. 計量線形空間と正規直交基底
§3. 行列の対角化(II)と二次形式
§4. エルミート行列とユニタリ行列
● 行列の対角化 公式エッセンス

【NNとの関係】
・対角化は線形変換の本質的性質(固有値と固有方向)を明らかにする
・固有分解は PCA や SVD を通して特徴抽出の基本
・正規直交基底は勾配伝搬が安定する表現
・ユニタリ行列はノルム保存→勾配が消えない→RNNに利用される

【講義 8 ジョルダン標準形】
§1. 2 次正方行列のジョルダン標準形
§2. 3 次正方行列のジョルダン標準形
● ジョルダン標準形 公式エッセンス

【NNとの関係】
・ジョルダン形式は線形変換の「最終的な分解」
・固有値の重複(Jordan ブロック)は勾配消失・爆発と直結
・RNN の長期依存問題を数学的に説明する枠組
・線形層の力学(繰り返し適用時の挙動)を Jordan で完全解析できる

【講義 1 数列と関数の極限】

§1. 数列の極限と ε-N 論法
§2. 正項級数とダランベールの判定法
§3. 三角関数と逆三角関数
§4. 指数・対数関数と双曲線関数
§5. 関数の極限と ε-δ 論法
● 数列と関数の極限 公式エッセンス

【NNとの関係】
● ε-N/ε-δ 論法

・NN の学習収束(loss → 0)を数学的に定義する枠組
・勾配降下法における「収束判定」は ε-δ 論法と同じ構造
例:
「学習率 η が十分小さいとき、更新列 θₖ は収束する」

● 正項級数の判定

・誤差の累積(gradient accumulation)が収束するかの解析に利用
・Adam / RMSProp は「級数の収束性」を利用した最適化

● 三角・指数・対数・双曲線関数

・NN の活性化関数(tanh, sigmoid)の本質
・指数関数は softmax、attention の基礎
・log は cross-entropy の中核

→ 極限論法は NN の収束解析の数学的な基準 である。

【講義 2 微分法とその応用(1変数関数)】

§1. 変分係数と導関数
§2. 微分計算
§3. ロピタルの定理と関数の極限
§4. 微分法と関数のグラフ
§5. テイラー展開・マクローリン展開
● 微分法とその応用 公式エッセンス

【NNとの関係】
● 導関数

・勾配(gradient)そのもの
・NN の学習は「導関数を使ってパラメータ更新」する作業

● 微分計算

・バックプロパゲーションの基礎
「連鎖律(chain rule)」= NN で最重要の数学

● ロピタルの定理

・softmax の安定化(exp の打ち消し)や log-sum-exp 近似で使用
・RNN/LSTM の勾配消失解析にも登場

● グラフと微分

・勾配 descent が「局所最小・鞍点」にどう動くかを理解する基礎

● テイラー展開

・最適化法(Newton 法、2次近似)の数学的根拠
・NN の損失関数を局所二次関数で近似する際に利用

→ 微分法は NN 学習(勾配計算)の中核。

【講義 3 積分法とその応用(1変数関数)】

§1. 不定積分
§2. 定積分
§3. 定積分のさまざまな応用
● 積分法とその応用 公式エッセンス

【NNとの関係】
● 不定積分

・損失関数の「面積」や「累積誤差」の積分的理解
・連続最適化の変分法にもつながる

● 定積分

・期待値 E[x] の定義
・確率分布 p(x) の扱い
→ NN と統計学(特に確率的勾配法)の結びつきの中心概念

● 積分の応用

・正則化(L2, L1)は積分で説明できる
・確率的勾配降下(SGD)は積分の近似手法(モンテカルロ)

→ 積分は確率・期待値 → NN の損失関数定義に必須。

【講義 4 2変数関数の微分】

§1. 2変数関数と偏微分
§2. 偏微分の計算と高階偏微分
§3. 接平面と全微分
§4. テイラー展開と至近点
● 2変数関数の微分 公式エッセンス

【NNとの関係】
● 偏微分

・NN の学習で最も重要
・w₁, w₂, … それぞれに対して偏微分を取る
→ backpropagation = 大規模偏微分計算

● 高階偏微分

・Hessian(ヘッセ行列)は最適化法の基礎
・2階微分 → Newton法・収束判定

● 接平面と全微分

・線形層 Wx + b が多次元関数の局所線形近似であることを示す
・勾配 descent のステップが「接平面方向」に動く理由

● 多変数テイラー展開

・最適化の「2次近似モデル」の数学的背景
・二次形式 wᵀHw の解析は NN 安定性の基礎

【講義 5 2変数関数の重積分】

§1. 重積分
§2. 変数変換による重積分
§3. 曲面の面積
● 2変数関数の重積分 公式エッセンス

【NNとの関係】
● 重積分

・高次元確率分布の計算 → 変分推論、ベイズNN
・期待値 E[f(x,y)] を2変数以上で扱う際の基礎

● 変数変換

・正規化フロー(Normalizing Flow)の理論
・Jacobian 行列の行列式 det(J) を使う
→ NN × 変数変換 = 生成モデルの根幹

● 曲面積

・Loss landscape(損失地形)の幾何学的理解
・高次元最適化における安定点解析

【講義 1 離散型確率分布(1 変数確率関数)[確率編]】

§1. 場合の数
§2. 確率
§3. 離散型確率分布
● 離散型確率分布 公式エッセンス

【NN との関係】
● 場合の数・確率

・ニューラルネットの出力を「確率(softmax)」として扱う基礎
・分類問題では「事象の集合」をどう構成するかが重要
・組合せ論は attention のマスク生成にも利用される

● 離散型確率分布

(ベルヌーイ、二項、カテゴリ分布など)
・分類タスクの出力分布そのもの
・クロスエントロピー損失は離散分布上の KL 距離
・強化学習(RL)で policy π(a|s) を定義する際に利用

→ 離散分布は NN の分類器の数学的土台。

【講義 2 連続型確率分布(1 変数確率密度)[確率編]】

§1. 確率密度
§2. モーメント母関数と変数変換
● 連続確率分布 公式エッセンス

【NN との関係】
● 確率密度(PDF)

・正規分布、ガンマ分布などは生成モデルの基礎
・VAE(変分オートエンコーダ)で p(x|z), p(z) を扱う
・正規化フローの全モデルは「密度変換」を実施する

● モーメント・変数変換

・統計量の期待値・分散の計算
・Jacobian の行列式 → Normalizing Flow の中心
・Bayesian NN の事後分布推定

→ 連続分布は生成モデル・確率推論の中心。

【講義 3 2 変数の確率分布[確率編]】

§1. 離散型 2 変数の確率分布
§2. 連続型 2 変数の確率分布
● 2 変数の確率分布 公式エッセンス

【NN との関係】
● 2変量分布

・多変量ガウス分布は VAE、拡散モデルの基本
・相関構造は attention の概念(類似度)に近い
・多次元特徴量の依存関係を確率モデルで記述する基礎

→ 多次元分布=潜在空間(latent space)理解の数学基盤。

【講義 4 ポアソン分布と正規分布[確率編]】

§1. ポアソン分布(離散型)
§2. 正規分布(連続型)
§3. 中心極限定理
● ポアソン分布と正規分布 公式エッセンス

【NN との関係】
● ポアソン分布

・自然言語処理(NLP)の出現回数モデリング
・強化学習のイベント発生モデリング
・異常検知で「稀イベント」の確率を扱う際の基礎

● 正規分布

・誤差(ノイズ)モデルの基本
・VAE の潜在空間 q(z|x), p(z) の定義
・確率的勾配法(SGD)の「ノイズ = 正規分布近似」

● 中心極限定理

・NN の重みが初期化で「だいたい正規分布」になる理由
・ミニバッチの平均勾配が正規分布に近づく仕組み

→ 正規分布は ML・NN のほぼ全領域に現れる最重要分布。

【講義 5 χ² 分布, t 分布, F 分布[確率編]】

§1. χ² 分布
§2. t 分布と F 分布
● χ² 分布, t 分布, F 分布 公式エッセンス

【NN との関係】

・統計的検定(モデル比較・仮説検定)で必須
・正則化・分散推定の基礎
・ベイズ推論でも自由度を持つ分布として登場
・モデル誤差の分散推定に χ² が頻出

→ 誤差分散・モデル比較・統計的有意性の数理的基礎。

【講義 6 データの整理(記述統計)[統計編]】

§1. 1変数データの整理
§2. 2変数データの整理
● データの整理 公式エッセンス

【NN との関係】

・特徴量エンジニアリングの前処理(EDA)
・相関係数 → attention の類似度の基盤
・分布のプロット → 正規化・標準化の判断
・データのばらつきは損失の形状に影響

→ 記述統計はデータ前処理の骨格。

【講義 7 推定[統計編]】

§1. 点推定
§2. 区間推定
● 推定 公式エッセンス

【NN との関係】
● 点推定

・パラメータ最適化(θ̂ の推定値)
・最尤推定(MLE)は NN 学習と同型
(クロスエントロピー最小化=最尤推定)

● 区間推定

・モデルの不確実性評価(Bayesian NN)
・予測区間は回帰NNの評価で非常に重要
→ Monte Carlo dropout にも応用

【講義 8 検定[統計編]】

§1. 母平均と母分散の検定
§2. 母平均の差の検定
§3. 母分散の比の検定
● 検定 公式エッセンス

【NN との関係】

・モデル性能の有意性比較(A/B テストと同型)
・データセットの分布差異の検出
・学習済みNNの改善が「統計的に意味あるか」を判定する基準
・識別器の公平性検証(Fairness)の数学基盤

【数表(統計表)】

・標準正規分布表
・自由度 n の t 分布表
・自由度 n, m の χ² 分布表
・自由度 (m,n) の F 分布表(α = 0.05)
・自由度 (m,n) の F 分布表(α = 0.025)

【NNとの関係】

・モデル性能の信頼区間
・未知データの予測誤差の信頼区間
・A/B テストの正当性評価
・ベイズ推論との変換にも利用可能

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?