#1.これは何の記事?
本記事はラビットチャレンジの応用数学レポート用記事です。
###ラビットチャレンジって?
ラビットチャレンジとは、一般社団法人ディープラーニング協会(JDLA:Japan Deep Learning Association)が提供している認定資格「E資格」の受験に必要なJDLA認定プログラムの内の一つである。
###E資格って?
ディープラーニングの理論を理解し、適切な手法を選択して実装する能力や知識を有しているかを認定するための資格です。
公式:https://www.jdla.org/certificate/engineer/
###なんでこの記事を書いたの
・E資格の試験を受けるためには、各JDLA認定プログラムが発行する証明書(ラビットチャレンジの場合は「修了者ナンバー」)を取得しなければならない。
・「修了者ナンバー」を取得するにはラビットチャレンジ講座の各セクション(応用数学・機械学習・深層学習day1~4の計6つ)それぞれのレポートを提出しなければならない。
上記2点から、提出用レポートとしてこの記事を書きました。
#2.概要
本記事は以下3つで構成されています。
###線形代数
スカラー、ベクトル、行列
行列の積、行列の積の性質
単位行列、零行列、逆行列
固有値と固有ベクトル、固有値分解、特異値分解
###確率・統計
条件付確率、ベイズ則
ベルヌーイ分布、確率質量関数、期待値と分散
二項分布、確率質量関数、期待値と分散
###情報理論
エントロピー
エントロピーの非負性
同時エントロピー
条件付エントロピー
ダイバージェンス(相対エントロピー)
クロスエントロピー
#3.線形代数
###スカラーとは
・大きさのみの量
・四則演算できる
###ベクトルとは
・スカラーの「大きさ」に「向き」を加えた量
・矢印で図示される。「大きさ」は矢印の長さ、「向き」は矢印の向きでそれぞれを表す
・大きさと向きが同じであれば、平行移動させても同じベクトルとみなす
###行列とは
・スカラーを表にしたもの
・ベクトルを並べたもの
・ベクトルの変換に利用される
###行列の積
2つの2次正方行列A、Bについて、AとBの積ABは以下のように計算する。
$$
A =
\begin{pmatrix} a & b \\ c & d \end{pmatrix}
,
B =
\begin{pmatrix} p & q \\ r & s \end{pmatrix}
$$
AB = \left(
\begin{array}{cc}
a & b \\
c & d \\
\end{array}
\right )
\left(
\begin{array}{cc}
p & q \\
r & s \\
\end{array}
\right
)
=
\left(
\begin{array}{cc}
ap + br & aq + bs \\
cp + dr & cq + ds \\
\end{array}
\right
)
###行列の積の性質
以下の性質が成り立つ。
(AB)C = A(BC)
A(B+C) = AB + AC
(A+B)C = AC + BC
AB ≠ BA 基本的には交換法則は成立しない
AE = EA = A
AO = OA = O
X ≠ O かつ Y ≠ O であってもXY = Oとなる場合がある。
その時のXとYを「零因子」という。
###単位行列
単位行列とは、対角成分がすべて1であるn次の正方行列のこと。
$$
E =
\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
$$
単位行列は以下の性質を持つ。
$$
AE = EA = A
$$
$$
E^n = E (nは自然数)
$$
実数の1と同じ働きをする。
###零行列
零行列とは成分すべてが0の行列のこと。
$$
O =
\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}
$$
零行列は以下の性質を持つ。
$$
A + O = O + A = A
$$
$$
AO = OA = O
$$
###逆行列
行列Aに対して
$$
AB = BA = I
$$
を満たすBをAの「逆行列」という。特にBは以下のように表記される。
$$
B = A^{-1}
$$
###固有値と固有ベクトル
ある$\boldsymbol{n}$次正方行列$\boldsymbol{A}$に対して
$$
A\boldsymbol{x} = λ\boldsymbol{x}
$$
を満たす$\boldsymbol{n}$次元ベクトル$\boldsymbol{x (x ≠ 0)}$と$\boldsymbol{λ}$が存在するとき、
λをAの固有値、$\boldsymbol{x}$をλに対する固有ベクトルという。
普通はベクトルに行列を作用させると「長さ」と「向き」が変換(一次変換)されるが、上式は
「向きは変換されず長さだけが変換」される特別なケースなのである。
###対角化
$n$次の正方行列$A$が、$n$個の異なる固有値$λ_1, λ_2, ..., λ_n$を持ち、それぞれの固有値に対する線形独立な固有ベクトルが$\boldsymbol{x_1, x_2, ..., x_n}$のとき、正則行列$\boldsymbol{P = [x_1 x_2 ... x_n]}$を用いて、行列$\boldsymbol{A}$は以下のように対角化できる。
P^{-1}AP=
\left(\begin{matrix}
\lambda_1& &0\\
&\ddots& \\
0& &\lambda_n
\end{matrix}\right)
V = \begin{pmatrix}
\boldsymbol{v_1} & \boldsymbol{v_2} & \cdots & \boldsymbol{v_n} \\
\end{pmatrix}
###固有値分解
正方行列$A$が固有値$λ$、固有ベクトル$\boldsymbol{v}$を持つとき、
$$
A = VΛV^{-1}
$$
と表せる。ただし、
Λ=
\left(\begin{matrix}
\lambda_1& &0\\
&\ddots& \\
0& &\lambda_n
\end{matrix}\right)
V = \begin{pmatrix}
\boldsymbol{v_1} & \boldsymbol{v_2} & \cdots & \boldsymbol{v_n} \\
\end{pmatrix}
とおく。
このように$A$を変形することを固有値分解という。
###特異値分解
固有値分解を正方行列以外に拡張したもの。
$rank(A) = r$ の $m×n$ 行列 $A$ を与える。この時、$A$ の特異値分解は以下で示される。
$$
A = UΛV^{T}
$$
$$
A:m×n
$$$$
U:m×r
$$$$
Λ:r×r
$$$$
V^{T}:r×n
$$
但し、 $r<m<n$ とする。
この時、 $U$ と $V$ は直行行列、 $Λ$ は対角行列である。
ここで、 $Λ$ の対角成分 $σ_1, σ_2, \cdots, σ_r$ が $A$ の特異値と呼ばれる。
但し、 $σ>0$ である。
ここで、
$$
U=[u_1 u_2 \cdots u_r]
$$
$$
V=[v_1 v_2 \cdots v_r]
$$
とすると、 $u_i$ と $v_i$ はそれぞれ左特異ベクトル、右特異ベクトルと呼ばれる。
特異値の定義は固有値の定義に似せて、以下の様にも書ける。
$$
A\boldsymbol{v} = σ\boldsymbol{u}\tag{1}
$$$$
A^{T}\boldsymbol{u} = σ\boldsymbol{v}\tag{2}
$$$$
σ>0, \boldsymbol{u}≠\boldsymbol{0}, \boldsymbol{v}≠\boldsymbol{0}
$$
$(1)$に左から$A^{T}$をかけると
$$
A^{T}A\boldsymbol{v} = σA^{T}\boldsymbol{u} = σ^2\boldsymbol{v}
$$
$(2)$に左から$A$をかけると
$$
AA^{T}\boldsymbol{u} = σA\boldsymbol{v} = σ^2\boldsymbol{u}
$$
固有値の定義も一緒に並べてみると
$$
A\boldsymbol{v} = λ\boldsymbol{v}
$$$$
A^{T}A\boldsymbol{v} = σ^2\boldsymbol{v}
$$$$
AA^{T}\boldsymbol{u} = σ^2\boldsymbol{u}
$$
上記から、$\boldsymbol{u}, \boldsymbol{v}$はそれぞれ
$AA^{T}, A^{T}A$の固有ベクトルであり、且つ、固有値はいずれも$σ^2$である。
以上から、行列$A$の特異値$σ$の2乗と行列$AA^{T}, A^{T}A$の固有値は同値である。
#4.確率・統計
###条件確率
ある事象$A$と$B$が存在する。
事象$B$が起こるという条件下で別の事象である$A$が起こる確率のこと。
$A$および$B$をそれぞれ事象とし、$P(B) > 0$のとき、$B$における$A$の条件付き確立$P(A|B)$は以下で定義される。
P(A|B) = \frac{P(A \cap B)}{P(B)}
###ベイズ則
以下の式で定義される。
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
条件付き確立の定義式に確立の情報定理を適用させると導出できる。
\begin{align}
P(A|B) &= \frac{P(A \cap B)}{P(B)} \\
&= \frac{P(A)P(B|A)}{P(B)}
\end{align}
###ベルヌーイ分布
2種類のみの結果だけ得られる実験、思考の結果を0と1で表した分布のこと。
例えば「表か裏か」「勝つか負けるか」「デッドオアアライブ」など。
離散型の確立分布に属する。
###確率質量関数
確立変数$X$がベルヌーイ分布に従うとき、確立質量関数は
$$
P(X=1)=p, P(X=0)=1-p
$$
まとめて以下の様に表すことができる。
$$
P(X=k)=p^k(1-p)^{1-k} \
k \in \{0,1\}
$$
###期待値と分散
####期待値
\begin{align}
E(X) &= \sum_{k=0}^{1}kP(X=k) \\
&=0×(1-p)+1×p \\
&=p
\end{align}
####分散
\begin{align}
V(X) &= E(X^2) - {E(X)}^2 \\
&= \sum_{k=0}^{1}k^2P(X=k) - {p^2} \\
&= \{ 0^2×(1-p)+1^2×p \} - {p^2} \\
&= p - p^2 \\
&= p(1-p)
\end{align}
###二項分布
ベルヌーイ施行を独立に$n$回行った際に成功回数$X$が従う確率分布のこと。
$X$が二項分布に従うとき、以下の様に表す。
X ∼ B(n,p)
ベルヌーイ分布は二項分布の特に$n=1$の場合である。
$n$や$p$はパラメータ(または母数)と呼ばれる。
$n$回のベルヌーイ施行を行うとき、$k$回成功する確率$P(X=k)$は
P(X = k) = {}_n C _kp^k(1-p)^{1-k} \\
例えば、コインを10回投げて表が7回出る確率を求めるとする。
このコインの表が出る確率を$p=0.5$とすると、表が7回出る確率は
\begin{align}
P(X=7) &={}_{10}C_7×0.5^7×(1-0.5)^3 \\
&=0.117
\end{align}
####期待値
\begin{align}
E(X) &= \sum_{k=0}^{n}kP(X=k) \\
&= \sum_{k=0}^{n} {}_n C _k p^{k}(1-p)^{n-k} \\
&= \sum_{k=0}^{n} k \frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \\
&= \sum_{k=0}^{n} k \frac{n(n-1)!}{(n-k)!k(k-1)!}pp^{k-1}(1-p)^{n-k} \\
&= np\sum_{k=0}^{n} \frac{(n-1)!}{(n-k)!(k-1)!}p^{k-1}(1-p)^{n-k} \\
&= np\\
\end{align}
最後の変形は確立変数がとりうる値を全て足し合わせている→$(p+(1-p))^n=1$
####分散
\begin{align}
V(X) &= E(X-E(X)^2) \\
&= E(X^2)-E(X)^2 \\
\end{align}
$E(X)^2$は$(np)^2$なので、以下では$E(X^2)$を導出する。
\begin{align}
E(X^2) &= \sum_{k=0}^{n} k^2 P(X=k) \\
&= \sum_{k=0}^{n} k^2 {}_n C _k p^{k}(1-p)^{n-k} \\
&= \sum_{k=0}^{n} (k(k-1)+k) \frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \\
&= \sum_{k=0}^{n} k(k-1) \frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \\
&+ \sum_{k=0}^{n}k\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \\
&= \sum_{k=0}^{n} \frac{n!}{(n-k)!(k-2)!}p^k(1-p)^n-k+np \\
&= \sum_{k=0}^{n} \frac{n(n-1)(n-2)!}{(n-k)!(k-2)!}p^2p^{k-2}(1-p)^{n-k}+np \\
&= n(n-1)p^2 \sum_{k=0}^{n}\frac{(n-2)!}{(n-k)!(k-2)!}p^{k-2}(1-p)^{n-k}+np \\
&= n(n-1)p^2+np \\
\end{align}
よって、$E(X^2)=n(n-1)p^2+np$となる。
以上から、$V(X)$の値は以下となる。
\begin{align}
V(X) &= E(X^2)-E(X)^2 \\
&= n(n-1)p^2+np-(np)^2 \\
&= np(1-p) \\
\end{align}
#5.情報理論
情報の本質を明らかにしようと知られる学問。
1948年にシャノンによって書かれた論文"A mathematical theory of communication"によって創始された。
情報理論が存在しなければデジタル通信自体がここまで早く普及することはなかったといわれている、らしい。
私たちの身の回りのデジタル機器は情報理論無しに設計することは困難、らしい。
※「らしい」というのは、筆者が未だ情報理論がどのように活用されているか理解できていないため。(いつか理解できる日が来るといいなぁ)
###エントロピー
標本空間 $A= \{a_1, a_2, \cdots, a_n \}$の要素$a_k$を確立$p_k$で取る確率変数$X$を考える。
P(X=a_k)=p_k \\
k=1,2, \cdots, n \\
この時、$X$のエントロピーは以下で定義される。
H(X)=-\sum_{k=1}^{n} p^k \log_2 p_k \\
対数の底は2、エントロピーの単位はビット。
###エントロピーの非負性
H(X) \geq 0 \\
$0 \leq p_k \leq 1 (k=1,2, \cdots, n)$なので、$-p_k \log p_k \geq 0$が成立する。
公正なサイコロを振って出た目を示す確率変数$X$のエントロピーを求める。
この時以下となる。
A=\{a_1=1, a_2=2, \cdots, a_6=6\} \\
p_k=\frac{1}{6}, k=\{1, 2, \cdots, 6\} \\
\begin{align}
H(X) &= \sum_{k=1}^{6} p_k \log p_k \\
&= -p_k \log p_k \sum_{k=1}^{6} 1 \\
&= -\frac{1}{6} \log \frac{1}{6} \times 6 \\
&= \log 6 \fallingdotseq 2.585 \\
\end{align}
次に、歪んだサイコロを投げる。条件は以下。
p_1=p_6=\frac{1}{3} \\
p_2=p_3=p_4=p_5=\frac{1}{12} \\
このようなサイコロを振って出た目を示す確率変数$Y$のエントロピーを求める。
\begin{align}
H(Y) &=-\sum_{k=1}^{6}p_k\log p_k \\
&=-\left\{\left(\frac{1}{3}\log \frac{1}{3}\right)\times2+\left(\frac{1}{12}\log \frac{1}{12}\right)\times4\right\} \\
&=\frac{2}{3}\log3+\frac{1}{3}\log12 \\
&\fallingdotseq \frac{2}{3}\times1.585 + \frac{1}{3}\times3.585 \\
&=2.252
\end{align}
よって、歪んだサイコロの方がエントロピーが大きい。
###同時エントロピー
確率変数が$X$と$Y$、2つあるパターン。
例えば、天気と気温のように、天気を示す確率変数$X$が決定すると、気温を示す確率変数$Y$がある程度絞れる。
つまり、$Y$についての曖昧さが減少する(ことがある)。
####同時エントロピーの定義
直積$A×B$を標本空間とする確率変数$(X,Y)$が同時確率$P(X,Y)$を有する時、この確率変数$(X,Y)$の同時エントロピを以下のように表す。
H(X,Y)=-\sum_{x \in A} \sum_{y \in B} P(x,y) \log P(x,y)
例
公正なコインを2回振る。
1回目の結果を確立変数$X$、2回目の結果を確立変数$Y$で表す。
この時、集合$A= \{表、裏 \} $、集合$B=\{表、裏\}$の直積集合である$A×B$は
A×B=\{(表,表),(表,裏),(裏,表),(裏,裏)\}
となり、これら事象はすべて等しく確率$\frac{1}{4}$となる。
したがって、同時エントロピー$H(X,Y)$は
\begin{align}
H(X,Y)&=-\frac{1}{4}\log\frac{1}{4} \\
&=2
\end{align}
となる。
###条件付エントロピー
標本空間$A×B$の値をとる確率変数$(X,Y)$の同時確率を$P(x,y)$とするとき、$X$に対する$Y$の条件付エントロピー$H(Y|X)$を以下のように定義する。
H(Y|X)=-\sum_{x \in A} \sum_{y \in B} P(x,y) \log P(y|x)
条件付きエントロピーは、$X$が判明した時の$Y$の曖昧さを表す。
例えば、公正なサイコロを1回振って
出た目を表す確率変数$X$と出た目が「偶数か奇数か」を表す確率変数$Y$があるとする。
確率変数$X,Y$それぞれのエントロピーは
$H(X)=\log6$、$H(Y)=\log2$となる。
この時、$X$が判明していれば、例えば$X=6$の時$Y$が確定するので$H(Y|X)=0$となる。
逆に、$Y$が判明していれば出る目は6パターンから3パターンに絞れるので$H(X|Y)=\log3$となる。
###ダイバージェンス(相対エントロピー)
同一の標本空間$A$上に値をとる2つの確率分布$P(x),Q(x)(x \in A)$に対し、ダイバージェンス$D(P||Q)$を以下によって定義する。
D(P||Q)=\sum_{x \in A} P(x)\log\frac{P(x)}{Q(x)}
ダイバージェンス(相対エントロピー)とは、確率分布の距離を表す尺度として利用される。
ダイバージェンスが小さいほど、2つの確率分布の距離が小さいことを意味している。
###クロスエントロピー
2つの確率変数がどれほど離れているかを表す指標のこと。
$p(x)$が正解であるデータを示す分布、および$q(x)$が推論データを示す分布の時、クロスエントロピーは以下で定義される。
H(p,q)=-\sum_{x} p(x)\log_2q(x) \\
分類問題を扱う際の損失関数はクロスエントロピーがよく利用されている。