More than 3 years have passed since last update.

ディープラーニング講座「応用数学」要点まとめ

Last updated at 2021-01-11Posted at 2020-09-30

私は、2020年7月に「G検定（2020 #2）」に合格した。
次は、2021年2月実施の「E資格（2021 #1）」受験資格である__JDLA認定プログラム「３カ月で現場で潰しが効くディープラーニング講座」__に2020年8月から挑戦中。

本記事では、__JDLA認定プログラム「3カ月で現場で潰しが効くディープラーニング講座」の課題であり、ディープラーニング実装に必要な知識「応用数学」__の要点をまとめる。

第１章：線形代数

１－１．固有値・固有ベクトル

ある正方行列$A$とベクトル$\vec{x}$の積が、ただのスカラーの数$\lambda$とベクトル$\vec{x}$の積となる特殊な$\vec{x}$のことを行列$A$に対する__固有ベクトル__といい、係数$\lambda$を__固有値__という。

A\vec{x}＝\lambda\vec{x}

その他特徴

行列$A$は正方行列である
固有ベクトル$\vec{x}$は特定の比率を示すため、複数存在する

　　例：(1 1)や(2 2)は同じ固有ベクトル　
固有値$\lambda$はただの係数のため、固有値、固有ベクトルを求める際は単位行列_I_を利用して求める

　　求め方：　行列式　|$A$-$\lambda$I|=0より固有値$\lambda$を算出した後、固有ベクトルを求める

１－２．固有値分解

　ある実数を正方形に並べた行列$A$が固有値$\lambda_1$,$\lambda_2$,…と固有ベクトル$\vec{v}_1$,$\vec{v}_2$,…を持っているとする。
この固有値$\lambda_1$,$\lambda_2$,…を対角線上に並べ、それ以外の成分を0にした行列を行列$\Lambda$とし、その固有値に対応した固有ベクトルを並べた行列を行列$V$とする。

\Lambda＝
\left(
\begin{array}{cc}
\lambda_1 & 0 & \cdots \\ 
0 & \lambda_2 & \cdots \\
\vdots & \vdots & \ddots \\
\end{array}
\right)
,V=
\left(
\begin{array}{cc}
\vec{v}_1 & \vec{v}_2 & \cdots \\ 
\end{array}
\right)

すると、以下のような行列式が成り立ち、これを行列$A$の__固有値分解__という。

A=V\Lambda\:V^{\mathrm{-1}}

その他特徴

行列$A$は正方行列でなければ固有値分解できない
固有値は基本的には$n×n$行列であれば$n$個存在する
$\Lambda$は固有値$\lambda$の大きい数字から並べるのが一般的だが、順番に制約はない
メリットは正方行列$A$を複数回かける際に計算が容易になること

　　例1：$AA$=$V$$\Lambda$$V^{\mathrm{-1}}$$V$$\Lambda$$V^{\mathrm{-1}}$=$V$$\Lambda$$\Lambda$$V^{\mathrm{-1}}$,

　　例2： $AAA$=$V$$\Lambda$$V^{\mathrm{-1}}$$V$$\Lambda$$V^{\mathrm{-1}}$$V$$\Lambda$$V^{\mathrm{-1}}$=$V$$\Lambda$$\Lambda$$\Lambda$$V^{\mathrm{-1}}$

$\Lambda$は0が多く、$\lambda$の累乗で計算が楽
固有値分解により固有値、固有ベクトルから行列$A$の特徴が推測できる

１－３．特異値・特異値分解

　正方行列ではなくても分解できる方法がある。

ある実数の長方行列$M$に対し、特殊な単位ベクトル$U,V$を使用した以下のような式が成り立つ分解を__特異値分解__という。$S$は、__特異値__を対角に並べた行列。

M\vec{v}=\sigma\vec{u}\\
M^{\mathrm{T}}\vec{u}=\sigma\vec{v}\\
\:\\
M=USV^{\mathrm{-1}}

その他特徴

固有値分解できるには以下の式が成り立つ
長方行列$M$と転置行列$M^{\mathrm{T}}$をかけると正方行列となる
特異値分解は正方行列となる$M$$M^{\mathrm{T}}$と$M^{\mathrm{T}}$$M$、つまり$M$の2乗の行列に対する固有値分解を用いて行う

　$MM^{\mathrm{T}}$=$USV^{\mathrm{-1}}$*$VS^{\mathrm{T}}U^{\mathrm{-1}}$=$USS^{\mathrm{T}}U^{\mathrm{-1}}$

　$M^{\mathrm{T}}M$=$VS^{\mathrm{T}}U^{\mathrm{-1}}$*$USV^{\mathrm{-1}}$=$VS^{\mathrm{T}}SV^{\mathrm{-1}}$
特異値分解はデータ量の多い画像を圧縮できる方法として利用される

　具体的には・・・特異値分解後、小さい特異値を減らすことでぼやかした画像（圧縮した画像）を作ることが可能
特異値分解することで、機械学習前のデータ処理段階で特異値が似ている（画像が似ている）という特徴が見いだせる

演習問題

★問題1

A=
\left(
\begin{array}{cc}
8 & 1  \\ 
4 & 5\\
\end{array}
\right)
の固有値を求めよ。\\
\:\\
(a)\lambda =9,4 \:\:\:(b)\lambda =8,4 \:\:\:(c)\lambda =9,3 \:\:\:(d)\lambda =8,1
\:\\
\:\\

解答


行列式　|A-\lambda I|=0より\\
\begin{vmatrix}
8-\lambda & 1 \\
4 & 5-\lambda
\end{vmatrix}=0 \\
\:\\
(8-\lambda)(5-\lambda)-1*4=0 \\
\:\\
\lambda ^2-13 \lambda +36=0 \\
\:\\
(\lambda-4)(\lambda-9)=0 \\
\:\\
固有値(a)\lambda = 9,4\\

★問題2

A=
\left(
\begin{array}{cc}
8 & 1  \\ 
4 & 5
\end{array}
\right)
の一次独立な固有ベクトルの組み合わせとして正しいものはどれか。\\
\:\\
(a)
\begin{pmatrix}
1  \\
-4 
\end{pmatrix} ,
\begin{pmatrix}
1  \\
1 
\end{pmatrix}  \:\:\:
(b)
\begin{pmatrix}
1  \\
-4 
\end{pmatrix} ,
\begin{pmatrix}
1  \\
-1 
\end{pmatrix}  \:\:\:
(c)
\begin{pmatrix}
1  \\
4 
\end{pmatrix} ,
\begin{pmatrix}
1  \\
1 
\end{pmatrix}  \:\:\:
(d)
\begin{pmatrix}
-1  \\
-4 
\end{pmatrix} ,
\begin{pmatrix}
1  \\
1 
\end{pmatrix} 
\:\\
\:\\

解答


\begin{pmatrix}
8-\lambda & 1 \\
4 & 5-\lambda
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2
\end{pmatrix}
=
\begin{pmatrix}
0 \\
0
\end{pmatrix} 
に固有値\lambda =9,4を代入する\\
\:\\
\:\\
\lambda=4のとき\\

\begin{pmatrix}
4 & 1 \\
4 & 1
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2
\end{pmatrix}
=
\begin{pmatrix}
0 \\
0
\end{pmatrix} より\\
4x_1 + x_2 = 0 となり\\
固有ベクトルは
\begin{pmatrix}
1 \\
-4
\end{pmatrix} となる
\:\\
\:\\
\lambda=9のとき\\

\begin{pmatrix}
-1 & 1 \\
4 & -4
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2
\end{pmatrix}
=
\begin{pmatrix}
0 \\
0
\end{pmatrix} より\\
-x_1 + x_2 = 0 となり\\
固有ベクトルは
\begin{pmatrix}
1 \\
1
\end{pmatrix} となる
\:\\
\:\\
解答 (a)

第２章：確率・統計

２－１．確率

確率の種類

　確率には発生する頻度を表す__頻度確率__と、信念の度合いを表す__ベイズ確率__の2種類が存在する。本記事では、頻度確率に関する要点をまとめる。

頻度確率（客観確率）・・・発生する頻度

　例：10本のうち1本あたりが出る　確率10%
ベイズ確率（主観確率）・・・信念の度合い

　例：医者に「あなたは__40%の確率__でインフルエンザです」と言われる

確率の定義

　すべての事象の数を$n(U)$、事象$A$が起こる数を$n(A)$で表すと、すべての事象に対する、事象$A$が起こる確率は以下のように表される。
・事象$A$が起こる確率

P(A)=\frac{n(A)}{n(U)}=\frac{事象Aが起こる数}{すべての事象の数}

また、その他の確率の定義にも順に示す。

・事象$A$が起こらない確率

P(\bar{A})=\frac{事象Aが起こらない数}{すべての事象の数}=\frac{すべての事象の数-事象Aが起こる数}{すべての事象の数}\\
=\frac{n(U)-n(A)}{n(U)}=\frac{n(U)}{n(U)}-\frac{n(A)}{n(U)}=1-P(A)\\

・条件付き確率
　　ある事象$B$が与えられた下で、$A$となる確率

P(A|B)=\frac{P(A \cap B)}{P(B)}=\frac{n(A \cap B)}{n(B)}\\

・事象$A$、$B$が同時に起こる確率

P(A \cap B)=P(A)P(B|A)=P(B)P(A|B)\\

・事象$A$か$B$が起こる確率

P(A \cup B)=P(A)+P(B)-P(A \cap B)\\

ベイズ則（ベイズの定理）

　ベイズ則（ベイズの定理）とは、「ある事象$A$が起こったという条件の下での事象$B$となる確率$P(B|A)$」を下に、「ある事象$B$が起こったという条件の下での事象$A$となる確率__$P(A|B)$__」が求められる法則のことで、式で表すと以下のようになる。

P(A|B)=\frac{P(B|A)P(A)}{P(B)}\\

この法則を利用することで、実際に起こっていない確率（上記では__$P(A|B)$__）を簡単に求めることができる。

２－２．統計

統計の種類

　統計には__記述統計__と、__推測統計__という種類がある。それぞれの意味は以下の通り。

記述統計：集団の性質を要約し記述する統計
推測統計：集団から一部を取り出し元の集団（母集団）の性質を推測する統計

母集団は多くのデータが集まっており、全てのデータを見てどのような性質かを調べることは難しい。そこで、一部のデータを標本として抽出し、その標本のデータの性質を調べ、母集団の性質を推測する（推測統計）。今回学ぶディープラーニングは、母集団に位置づけられるビッグデータそのもののデータを調べることができる手法である。

統計学で用いられる専門用語

　統計学ではデータの特徴を表現するため、多くの分布や専門用語を扱う。その代表例を以下に示す。

期待値：分布における、平均の値 or 「ありえそうな値」

期待値E(f)=\sum_{k=1}^{n} P(X=x_k)f(X=x_k)\qquad※離散値\\
期待値E(f)=\int  P(X=x)f(X=x)dx\qquad※連続値\\

分散：データの散らばり具合　データの各々の値が、期待値からどれだけズレているのか平均したもの

分散Var(f)=E((f_{(X=x)}-E_{(f)})^2)=E(f^2_{(X=x)})-(E_{(f)})^2

標準偏差：データの散らばり具合であり、分散の平方根

　元データを2乗している分散は元の単位と異なるため、分散を平方根して単位を合わしている

標準偏差\sigma=\sqrt{Var(f)}=\sqrt{E((f_{(X=x)}-E_{(f)})^2)}

ベルヌーイ分布：表裏のみがでるコイントス時の確率をイメージする分布

　表と裏の出る割合が等しくなくても扱える分布

P(x|\mu)=\mu^x(1-\mu)^{1-x}

マルチヌーイ（カテゴリカル）分布：さいころを振った際の確率をイメージする分布

　各面の出る割合が等しくなくても扱える分布
二項分布：ベルヌーイ分布の多試行版

P(x|\lambda ,n)=\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}

ガウス分布：釣鐘型の連続分布

N(x,\mu ,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}exp\Bigl(-\frac{1}{2\sigma^2}(x-\mu)^2\Bigr)

推定：母集団を特徴づける母数を推測すること

　・点推定：平均値などの1つの値を推定すること

　・区間推定：平均値などが存在する範囲（区間）を推定すること
推定量（estimator）：パラメーターを推定するために利用する数値の計算方法や計算式や推定関数のこと
推定値（estimate）：実際に試行を行った結果から計算した値のこと
標本平均：母集団から取り出した標本の平均値のこと
標本分散：母集団から取り出した標本の分散のこと
不偏分散：より母集団に近づけため、標本分散を修正した分散のこと

演習問題

★問題1

以下の選択肢から正しいものを選べ。

name	score
A	90
B	80
C	70
D	40

4人の平均点はいくつか。

\:\\
(a)65 \:\:\:(b)70 \:\:\:(c)75 \:\:\:(d)80
\:\\
\:\\

解答

\frac{90+80+70+40}{4}  \\
= 70
\:\\
\:\\
解答 (b)

★問題2

分散はいくつか。

\:\\
(a)340 \:\:\:(b)350 \:\:\:(c)360 \:\:\:(d)370
\:\\
\:\\

解答

\frac{(90-70)^2+(80-70)^2+(70-70)^2+(40-70)^2}{4}  \\
= \frac{1400}{4} =350
\:\\
\:\\
解答 (b)

★問題3

標準偏差はいくつか。

\:\\
(a)\sqrt{340} \:\:\:(b)\sqrt{350} \:\:\:(c)\sqrt{360} \:\:\:(d)\sqrt{370}
\:\\
\:\\

解答

標準偏差 = \sqrt{分散}  \\
 =\sqrt{350}
\:\\
\:\\
解答 (b)

第３章：情報理論

３－１．自己情報量・エントロピー

自己情報量

　情報量は、増加した情報量そのものではなく、元のデータ量に対する情報量の比率で表すことができる。

情報量\frac{\Delta w}{w}を積分すると、\\
\int \frac{1}{w}dw=\log w\\

以上より、__自己情報量$I(x)$__は、以下のように表せる。


I(x)=\log \bigl(W(x)\bigr)=-\log \bigl(P(x)\bigr)\\

$W(x)$は情報量（事象）の数、$P(x)$は情報量（事象）の数の逆数と考えられることができる。
また、自己情報量の単位は、対数の底が2のとき__ビット($bit$)__、底がネイピア$e$のとき__ナット($nat$)__となる。

シャノンエントロピー

　__シャノンエントロピー__とは、自己情報量の期待値のことである。


H(x)=E\bigl(I(x)\bigr)=-E \Bigl( \log \bigl(P(x)\bigr)\Bigr)\\
=-\sum_{}^{} \Bigl(P(x) \log \bigl(P(x)\bigr)\Bigr)\\

カルバック・ライブラー　ダイバージェンス

　__カルバック・ライブラー　ダイバージェンス__とは、同じ事象・確率変数における異なる確率分布$P,Q$の違いを表す。元からわかっていた確率分布$Q$の自己情報量に対し、あとでわかった確率分布$P$の自己情報量を引いたものの$P$に対する期待値で示すことができる。

I\bigl(Q(x)\bigr)-I\bigl(P(x)\bigr)=\Bigl(-\log \bigl(Q(x)\bigr)\Bigr)-\Bigl(-\log \bigl(P(x)\bigr)\Bigr)\\
=\log \frac{P(x)}{Q(x)}\\
\:\\
D_{KL}(P||Q)=E_{x～P}\;\Bigl[\log \frac{P(x)}{Q(x)}\Bigr]=E_{x～P}\;[\log P(x) -\log Q(x)]\\
=\sum_{}^{} P(x)\bigl(\log P(x) -\log Q(x)\Bigr)=\sum_{}^{} P(x)\log \frac{P(x)}{Q(x)}\\

交差エントロピー

　_交差エントロピー__とは、カルバック・ライブラー　ダイバージェンスの一部分を切り出したもの。確率分布$P$のシャノンエントロピー$H(P)$とカルバック・ライブラー　ダイバージェンス$D{KL}$からも求められる。

H(P,Q)=H(P)+D_{KL}(P||Q)\\
=-\sum_{x}^{} P(x)\log P(x)+\sum_{x}^{} P(x)\bigl(\log P(x) -\log Q(x)\bigr)\\
=-\sum_{x}^{} P(x)\log Q(x)

演習問題

★問題

シャノンエントロピーは自己情報量の平均である。ある離散的な事象の確率分布を$P(x)$としたとき、シャノンエントロピーとしてふさわしいものは、次のうちどれか。

(a)\sum \frac{1}{P(x)}\log \bigl(P(x)\bigr)  \:\:\:(b)-\sum P(x)\log \bigl(P(x)\bigr)  \:\:\:(c)\sum P(x)+\log \bigl(P(x)\bigr)
\:\\
\:\\

解答

シャノンエントロピーとは、自己情報量の期待値のことである。


H(x)=E(I(x))=−E(log(P(x))) \\
=-\sum P(x)\log \bigl(P(x)\bigr)
\:\\
\:\\
解答 (b)

ディープラーニング講座「応用数学」要点まとめ

第１章：線形代数

１－１．固有値・固有ベクトル

１－２．固有値分解

１－３．特異値・特異値分解

演習問題

第２章：確率・統計

２－１．確率

確率の種類

確率の定義

ベイズ則（ベイズの定理）

２－２．統計

統計の種類

統計学で用いられる専門用語

演習問題

第３章：情報理論

３－１．自己情報量・エントロピー

自己情報量

シャノンエントロピー

カルバック・ライブラー ダイバージェンス

交差エントロピー

演習問題

関連ページ

カルバック・ライブラー　ダイバージェンス