はじめに
本記事は、E資格の受験資格を得るための研修であるラビットチャレンジのレポートです。応用数学についてのレポートを提出します。
第1章 線形代数
スカラーとベクトル
- スカラー:いわゆる普通の数。四則演算が可能で、ベクトルの係数になれる。
- ベクトル:「大きさ」と「向き」を持ち、矢印で表される。スカラーのセットで表現される。
行列の積の定義
A = \begin{pmatrix}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{pmatrix},
B = \begin{pmatrix}
b_{11} & b_{12} \\
b_{21} & b_{22}
\end{pmatrix}
に対して、
AB = \left(\sum_{m=1,2}a_{im}b_{mj}\right)_{i,j}
となる。
単位行列と逆行列
下記の行列を単位行列と呼ぶ。
I = \begin{pmatrix}
1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\
\vdots & \vdots & 1 & \vdots \\
0 & 0 & \cdots & 1
\end{pmatrix}
単位行列は任意の行列を右からかけても左からかけても値を変えない。
また、下記の行列$A^{-1}$を$A$の逆行列と呼ぶ。
AA^{-1} = A^{-1}A = I
逆行列は掃き出し法と呼ばれる方法や、余因子展開などを用いて求める。また、行列式が0の場合、逆行列は存在しない。
固有値と固有ベクトル
下記の式中の$\boldsymbol{x}$と$\lambda$をそれぞれ固有ベクトルと固有値と呼ぶ。
A\boldsymbol{x} = \lambda \boldsymbol{x}
固有値は、
|A-\lambda I| = 0
を解くことで得られる。固有ベクトルは固有値、固有ベクトルの式に得られた固有値を代入することで得られる。
固有値分解と特異値分解
固有値を並べた行列$\Lambda$と固有ベクトル$V$を並べた行列を用いて、$A = V \Lambda V^{-1}$と分解することができる。これを固有値分解と呼ぶ。なお、固有値分解ができるのは、正方行列のみである。
正方行列以外の行列に対しては特異値分解ができる場合がある。特異値分解とは、行列$M$に対して
M \boldsymbol{v} = \sigma_1 \boldsymbol{v} \\
M^\top \boldsymbol{u} = \sigma_2 \boldsymbol{u}
となる$\sigma_1, \sigma_2$が存在するとき、各$\sigma_1, \sigma_2$を並べてできる行列$S$と$\boldsymbol{v}, \boldsymbol{u}$を並べて得られる行列$U, V$を用いて、
M = USV^{-1}
と分解できる。なお、特異値は$MM^\top$と$M^\top M$を固有値分解することで得られる。
第2章 確率・統計
頻度確率とベイズ確率
- 頻度確率:発生する頻度
- ベイズ確率:信念の度合い
ベイズの定理
ベイズの定理とは条件付き確率について、下記が成り立つことをいう。
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
なお、条件付き確率の定義は、
P(A|B) = \frac{P(A \cap B)}{P(B)}
である。
期待値と分散・共分散
連続的な確率変数$X$に対して、確率密度関数を$f(x)$とする。このとき、期待値と分散はそれぞれ
E[X] = \int_{-\infty}^\infty xf(x)dx \\
Var[X] = \int_{-\infty}^\infty (x-E[X])^2 f(x)dx
と定義される。期待値と分散の関係については、$Var[X] = E[X^2]-(E[X])^2$となることも知られている。
次に共分散とは、連続的な確率変数$X, Y$に対して、それぞれ確率密度関数を$f(x), g(y)$としたとき、
Cov(X, Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x-E[X])(y-E[Y])f(x)g(y)dxdy
と定義される。期待値と共分散の関係については、$Cov(X, Y) = E[XY]-E[X]E[Y]$となることが知られている。共分散が正の値を取れば$X$と$Y$は似た傾向、負の値を取れば逆の傾向、0であれば関係性に乏しいと解釈する。
上記定義は確率密度関数$f(x), g(y)$を確率関数に、積分を和に置き換えれば離散な確率変数についても成立する。
第3章 情報理論
自己情報量
自己情報量を
I(x) = -{\rm log}(P(x))
と定義する。自己情報量は次の性質を満たす。
- 単調減少性:$x$が発生する確率$P(x)$が大きいほど情報量は小さい。発生確率が大きいことを知っても大して情報は得られないことを表している。
- 加法性:$x, y$が独立なとき$I(x, y) = I(x)+I(y)$となる。$x, y$が独立であれば、$x$と$y$を別々に知ったときに得られる情報量の合計は、$x,y$の両方を知ったときの情報量に一致する。
シャノンエントロピー
自己情報量の期待値をシャノンエントロピーと呼ぶ。定義は下記。
H(x) = E[I(x)]
カルバック・ライブラーダイバージェンス
カルバック・ライブラーダイバージェンス(以下KLダイバージェンス)とは二つの確率分布がどれくらい離れているかを測るための指標である。なお、KLダイバージェンスは、距離ではない。KLダイバージェンスの定義は、
D_{KL}(P||Q) = E\left[{\rm log} \frac{P(x)}{Q(x)}\right] \\
= E[{\rm log}P(x)]-E[{\rm log}Q(x)]
である。なお、期待値は$P$に基づいてとる。
交差エントロピー
確率分布$Q$についての 自己情報量を$P$の分布で平均したものを交差エントロピーと呼び、
H(P, Q) = -E[{\rm log}Q(x)]
と定義する。KLダイバージェンスの一部を取り出したものになっている。
#関連記事
線形代数については、統計学のための数学入門30講を読むことでより理解が深まった。本書は、統計学を勉強するのに必要な基礎的な数学を網羅しており、特にブロック行列が勉強になった。
確率・統計、情報理論については現代数理統計学が勉強になった。本書は数理統計学を網羅している。また、最尤推定法の導入に際し、情報量を定義することで統計学における情報量の意味づけを理解することができた。