#応用数学
##線形代数
ここでは,以下の概要を理解する.
- 固有値・固有ベクトルの求め方
- 固有値分解の方法
- 特異値・特異ベクトルの求め方
- 特異値分解の方法
正方行列$A$について
$$A\boldsymbol{x}=\lambda\boldsymbol{x}$$
を満たす$\lambda$を固有値そのときのベクトル$\boldsymbol{x}$を固有ベクトルという.
正方行列$A$は以下のように固有値$\lambda$および固有ベクトル$\boldsymbol{x}$を用いて表現することができる.
$$A=V\Lambda V^{-1}$$
このとき,
\Lambda=
\begin{pmatrix}
\lambda_1 & &\\
& \lambda_2 &\\
& & ...
\end{pmatrix}
V=
\begin{pmatrix}
\boldsymbol{v_1} & \boldsymbol{v_2} & ... \\
\end{pmatrix}
また,正方行列以外の行列についても固有値分解の代わりとして特異値分解をすることができる.これらの分解手法は例えば画像データの行列から成分の小さい部分を取り除くことでデータ縮小化ができる.
##確率・統計
ここでは,以下の概要を理解する.
- 条件付き確率
- ベイズ則
- 期待値・分散の求め方
- 様々な確率分布
ある事象を前提として別の事象が起こる確率を条件付き確率と呼ぶ.事象Bを前提として事象Aが起こるときの条件付き確率は次式で表される.
$$P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{n(A\cap B)}{n(B)} $$
また,上式より,条件付きのほうが条件なしに比べて確率が高くなることが分かる.
また,事象Aの条件で事象Bが起こる条件付き確率も同様の考えで表せられるので次式が得られる.
$$P(A\cap B)=P(B)P(A|B)=P(A)P(B|A)$$
したがって次式が成立する.次式はベイズ則と呼ばれる.
$$P(A)P(B|A)=P(B)P(A|B)$$
ある事象$X$による確率変数$f(X)$を得る確率を$P(X)$とするとその期待値は次式で表される.
$$\mathrm E[X]=\sum_{k=1}^{n}=P(X=x_k)f(X=x_k)$$
期待値に対する各確率変数のばらつきの総和を分散と呼び次式で表される.
$$V[X]=E[X^2]-E[X]^2$$
確率分布は例えば下記のようなものがある.
・ベルヌーイ分布
「成功か失敗か」「表か裏か」「勝ちか負けか」のように2種類のみの結果しか得られないような実験、試行(ベルヌーイ試行)の結果を0と1で表す.
・マルチヌーイ分布
それぞれ独立した確率 を持つ事象 が存在し、1回の独立した試行でそのいずれか一つが観測される.
・二項分布
結果が成功か失敗のいずれかである試行(ベルヌーイ試行と呼ばれる)を独立に n 回行う.
・正規分布
データが平均値の付近に集積する.
##情報理論
ここでは,以下の概要を理解する.
- 自己情報量・シャノンエントロピーの定義
ある情報$W$の変化$\Delta T$の感度は比率に依存すると仮定すると,情報変化は$\Delta W/W$と表現できる,全体の情報変化はこれを積分する.これを自己情報量と呼び,以下となる.
$$I(x)=\int \frac{1}{W}dW=\log W(x)$$ - KLダイバージェンス・交差エントロピー
KLダイバージェンスは同じ確率事象・確率変数における異なる確率分布の違いを表す.$Q$を予定の確率分布,$P$を実績の確率分布とすると,KLダイバージェンスは次式で表される.
$$D_{KL}(P||Q)=\mathrm E_{x\sim P} \Big[\log \frac{P(x)}{Q(x)}\Big]=\sum_{x} \Big\{P(x)\log \frac{P(x)}{Q(x)}\Big\}$$
交差エントロピーはQについての自己情報量をPの分布で平均したものである.KLダイバージェンスの上式から,
$$D_{KL}(P||Q)=\sum_{x} \Big\{P(x)(-\log Q-(-\log P))\Big\}$$
である.ここで,交差エントロピーは
$$H(P,Q)=-\mathrm E_{x\sim P}\log Q(x)$$
である.これより,交差エントロピーは次式で表される.
$$H(P,Q)=H(P)+D_{KL}(P||Q)$$