※日本ディープラーニング協会のDeep Learning資格試験(E資格)受験に必要な、協会認定の講座プログラム( https://ai999.careers/rabbit/ )がある。
※本プログラム受講に際し、レポート作成はWebやBlogなどで作成する必要があるとのことで、Qiitaで作成することとした。
※個人的な備忘録兼レポート作成用であり、網羅的にカバーするものではありません。ご了承ください。
応用数学においては線形代数、確率統計、情報理論の3項目についてレポート課題として100文字以上で要点をまとめる必要があり、以下に記載する。
#1.線形代数(固有値分解・特異値分解)#
ここでは線形代数のうち応用範囲の広い固有値分解、特異値分解について記載する。ある行列に対して、$$\boldsymbol{Ax}=λ\boldsymbol{x}$$を満たす定数λを固有値、0でないベクトルxを固有ベクトルと呼ぶ。正方行列Aが固有値λ、固有ベクトルVを持つとき、
\boldsymbol{A}=\boldsymbol{VSV^{-1}}
と分解することを固有値分解という。ただし、V=(v1 v2 ・・・)、Sの対角成分はλ1 λ2・・・、非対角成分0。また、正方行列でない場合は
\boldsymbol{AA^{T}}=\boldsymbol{USS^{T}U^{-1}}\\
\\
\boldsymbol{A^{T}A}=\boldsymbol{VS^{T}SV^{-1}}\\
と変形され
\boldsymbol{A}=\boldsymbol{USV^{-1}}
と分解される。
固有値分解・特異値分解は主成分分析や対角化など幅広い分野で活用される。例えば画像の固有値分解によって、データの特徴を損なうことなくデータ圧縮やノイズの抑制を可能とする。
###参考図書###
なお、個人的なおすすめ文献は金谷健一先生の「これならわかる最適化数学」。行列演算や最小二乗法などの基礎や導出が丁寧に記載されている。
https://www.kyoritsu-pub.co.jp/kenpon/bookDetail/9784320017863
#2.確率統計#
講義にてカバーされる確率統計のうち備忘録兼レポートを以下に記す。
###条件付き確率###
ある事象X=xが与えられたもとで、Y=yとなる確率。例えば、雨が降る条件(天気X=雨x)での交通事故(Y=y)の確率
P(Y=y|X=x)=\frac{P(Y=y, X=x)}{P(X=x)}
なお、ベイズの定理
P(B|A)=\frac{P(A\cap B)}{P(A)}
より、\\
P(A|B)P(B)=P(B|A)P(A)\\
から\\
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
を用い、雨の降る確率、交通事故の確率が与えられれば、交通事故が起こったとき(Y=y)に雨(X=x)だった確率
P(X=x|Y=y)=\frac{P(X=x, Y=y)}{P(Y=y)}
も求まる。
###ベルヌーイ分布###
確率 p で 1 を、確率 q = 1 − p で 0 をとる確率分布であり、以下で表される。
P(x|\mu)=\mu^x(1-\mu)^{1-x}
この確率分布の平均は$\mu$、分散はpq=p(1-p)となる。
###参考図書###
統計学の本は様々あるが、機械学習に限らない基礎に関する参考図書として蓑谷先生の本を挙げる。
http://www.tokyo-tosho.co.jp/books/ISBN4-489-00698-5.html
#3.情報理論#
講義にてカバーされる情報理論のうち備忘録兼レポートを以下に記す。
自己情報量は以下に定義される。
{I(x)=-\log{(P(x))}}
ただし、P(x)は確率を表しており、例えばサイコロで偶数がでる確率、1が出る確率はそれぞれ1/2、1/6。サイコロ1がでる確率が低く、より低い確率に関する情報量I(x)がより大きいということになる。
自己情報量の期待値H(x)をシャノンエントロピーと呼び、以下で計算される。
{H(x) = \sum -P(x)\log{P(x)}}
これは、確率変数 $\log{P(x)}$、確率P(x)の確率分布の期待値を示す。
カルバック・ライブラーダイバージェンスとは、2つの確率分布の異なり具合を示す。
各々の確率分布の自己情報量の差の期待値を取っている。
{{\begin{eqnarray}
D_{KL}(P||Q) &=& \sum P(x){(-\log{Q(x)}) - (-\log{P(x)})} \\
&=& \sum P(x)\log{\frac{P(x)}{Q(x)}}
\end{eqnarray}}
}
###交差エントロピー###
交差エントロピーは2つの確率分布の離れ具合を判定する。確率分布P(x)とQ(x)の交差エントロピーは下記のように定義される。
{\begin{eqnarray}
H(P, Q) &=& -\sum P(x)\log{Q(x)}
\end{eqnarray}}
PとQの確率分布が似ていると交差エントロピー誤差は小さくなり、似ていないと大きくなる。最小二乗和とともに誤差関数としてよく用いられる。
###参考図書###
参考書として深層学習の基礎に関し、とっつきにくい面はあるが洞察が深いように感じられる岡本先生の以下の本を挙げる。
https://bookclub.kodansha.co.jp/product?item=0000147653