#はじめ
2020年2月21日の日本ディープラーニング協会(JDLA)のE資格を受験する予定で、「JDLA認定プログラム」のひとつとしてのオンラインE資格講座『ラビット・チャレンジ』を受講し、学習内容をまとめます。
日本ディープラーニング協会(JDLA)
ラビットチャレンジ
学習科目は以下のようになっています。
- 応用数学
- 機械学習
- 深層学習
#1. 応用数学
応用数学の学習用教材の構成は以下の通りです。
第一章:線形代数
第二章:確率・統計
第三章:情報理論
##第一章 線形代数
● チカラ :普通の数、+ - $\times \div $演算が可。
● ベクトル:「大きさ」と「向き」を持つ
● 行列:ベクトルを並べたもの
上記の線形代数知識は大学一年の時に、すべて学びました。今回は自分が復習として、行列の計算などに関する知識をまとめます。
(1)行列の積
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
\times
\begin{pmatrix}
e & f \\
g& h
\end{pmatrix}
=
\begin{pmatrix}
ae + bg & af + bh \\
ce + dg & cf + dh
\end{pmatrix}
(2)行列式
・2x2の行列
\begin{vmatrix}
a & b \\
c & d
\end{vmatrix}
=
ad - bc
・3x3の行列
\begin{vmatrix}
a_{11} & a_{12}& a_{13} \\
a_{21} & a_{22}& a_{23}\\
a_{31} & a_{32}& a_{33}
\end{vmatrix}
=
a_{11}\begin{vmatrix}
a_{22} & a_{23} \\
a_{32} & a_{33}
\end{vmatrix}
-a_{21}\begin{vmatrix}
a_{12} & a_{13} \\
a_{32} & a_{33}
\end{vmatrix}
+ a_{31}\begin{vmatrix}
a_{12} & a_{13} \\
a_{22} & a_{23}
\end{vmatrix}
(3)固有値と固有ベクトル
ある行列$A$に対して、以下のような式が成り立つような、特殊なベクトル$\vec{x}$と、右辺の係数$\lambda$がある。
$A\vec{x} = \lambda \vec{x}$
行列$A$と特殊なベクトル$\vec{x}$の積は、ただのスカラーの数$\lambda$と特殊なベクトル$\vec{x}$との積と同じ値になる
この特殊なベクトル$\vec{x}$とその係数$\lambda$を、行列Aに対する、固有値と固有ベクトルという。
単位行列を$I$として変形すると、
$(A-\lambda I)\vec{x} = \vec{0} $
$\vec{x}$ は $\vec{0}$とならないので、$(A-\lambda I)$の行列式はゼロでなくてはならない。
\begin{vmatrix}
A-\lambda I
\end{vmatrix}
=0
これを解くと固有値$\lambda$が求まり、最初の式に代入して固有ベクトル$\vec{x}$が求まる。
###(4)固有値分解
固有値と固有ベクトルが分かると、固有値分解できます。
行列$A$の固有値を、$\lambda_1 、\lambda_2 ...$と固有ベクトルを、$\vec{v_1} 、\vec{v_2} ...$としたとき、
\Lambda =
\begin{pmatrix}
\lambda_1 & 0 & ... \\
0 & \lambda_2 & ...\\
0 & .. & ...
\end{pmatrix}
V =
\begin{pmatrix}
\vec{v_1} & \vec{v_2} & ...
\end{pmatrix}
とすると、
$AV = V\Lambda$ と関係付けられる。したがって、
$A = V \Lambda V^{-1}$ と変形できます。
この形の$A$は固有値分解です。
###(5)特異値分解
特異値分解について、以下のリンク先にご参照頂けると思います。
リンク1
リンク2
##第二章 確率・統計
(1)頻度確率 とベイズ確率
■ 頻度確率(客観確率):発生する頻度(例:「10本のうち一本だけ当たりのクジを引いて当選する確率を調べたところ10%であった」という事実)。
■ ベイズ確率(主観確率):信念の度合い(例:「あなたは40%の確率でインフルエンザです」という診断)。
(2)条件付確率と独立な事象の同時確率
■ 条件付確率
ある事象 $X = x$ が与えられた下で、$Y=y$ が起きる確率。
P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}
■ 独立な事象の同時確率
お互いに発生には因果関係のない事象 $X = x$ と事象 $Y=y$ が同時に発生する確率
P(X=x,Y=y) = P(X=x)P(Y=y) = P(Y=y,X=x)
(3)ベイズ則
一般的に、事象 $X = x$、と事象 $Y=y$ に対して、
P(X=x|Y=y)P(Y=y) =P(Y=y|X=x) P(X=x)
(4)確率変数と確率分布
■ 確率変数:事象と結び付けられた数値
■ 確率分布:事象の発生する確率の分布(離散値であれば、表に示す)
■ 期待値:平均値あるいはありそうな値
・離散の場合
\sum_{k=1}^{n}P(X = x_k)f(X = x_k)
・連続の場合
\int P(X = x)f(X = x)dx \\
■ 分散と共分散
・分散 :データの散らばり具合(データの各々の値が、期待値からどれだけズレているのか平均したもの)
分散 Var(f) = E((f_{(X=x)}-E_{(f)})^2) \\
= E(f_{(X=x)}^2) - (E_{(f)})^2
・共分散:2つのデータ系列の傾向の違い
共分散 Cov(f,g) = E((f_{(X=x)}-E_{(f)})(g_{(Y=y)}-E_{(g)})) \\
= E(fg) - E(f)E(g)
■ 様々な確率分布
・ベルヌーイ分布
P(x|\mu) = \mu^x (1-\mu)^{1-x}
・二項分布
P(x|\lambda,n) = \frac{n!}{x!(n-x)!} \lambda^x (1-\lambda)^{n-x}
・ガウス分布
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}} exp(-\frac{1}{2\sigma^2} (x-\mu)^2)
##第三章 情報理論
###(1)自己情報量
情報がもたらす系の状態の不確定さの減少分をその情報の(自己)情報量といいます.さいころの例では,最初に観測をおこなう前,系はどの目がでたか全く判らない状態,すなわち不確定度(エントロピー)の高い状態にあります.つぎに観測を行い「1の目が出た」という情報によって系の状態が確定,すなわち不確定度(エントロピー)の低い状態となります.前後のエントロピーの差が自己情報量として取り出された分です.
確率 $P$ で生起する事象が実際に生じたことを報せる情報の自己情報量は以下の式になります。
I(x)=-log(P(x))
対数の底を2の時、情報量の単位はビット,10のとき、デジット,自然対数の底 e (= 2.71828...)にとればナットになります.
以下のリック先に情報量についての知識をご参照できます。
自己情報量概要
###(2)シャノンエントロピー
自己情報量の期待値という。
H(x) = E(I(x)\\
=-E(log(P(x))) \\
= -\sum(P(x)log(P(x))
###(3)交差エントロピー
・$KL$ダイバージェンスの一部分を取り出したもの
・$Q$についての自己情報量をPPの分布で平均している
H(P,Q) = H(P) + D_{KL}(P||Q) \\
H(P,Q) = -E_{X\sim P} log(Q(x)