More than 5 years have passed since last update.

深層学習:前編1(DNN_Day1)ーディープラーニングのための応用数学ー

Last updated at 2020-02-18Posted at 2020-02-18

社会人１０年目。大学卒業後、一切事務仕事以外やってこなかった、会社員が一からマクロ、SQL、Linux OS、ROSを1から勉強し直し、大学生で好きだった画像処理がディープラーニングで凄まじく進化したので、勉強し直して、新たに開発を行うことを業務外で研究している一開発部の社員の勉強を書いてます。

応用数学　

線形代数学

行列

画像は行列として考えると、特異値分解は、画像の圧縮に使える。機械学習の学習の際、事前学習の際に用いられる。

行列の積は連立方程式

\left\{
\begin{array}{ll}
x_1+4x_2&= 7\\
  2x_1+6x_2&=10
\end{array}
\right.

ここで、数式を以下の行列に置き換えられる。

\boldsymbol{A}=
\begin{pmatrix}
1 & 4\\
2 & 6
\end{pmatrix}
,
\boldsymbol{X}=
\begin{pmatrix}
x_1 \\
x_2
\end{pmatrix}
,
\boldsymbol{Y}=
\begin{pmatrix}
7 \\
10
\end{pmatrix}

\boldsymbol{A}\boldsymbol{X}=\boldsymbol{Y}

上記の行列は、逆行列（インバース）を使って解ける

\boldsymbol{A^{-1}}\boldsymbol{A}\boldsymbol{X}=\boldsymbol{A^{-1}}\boldsymbol{Y}

\boldsymbol{X}=\boldsymbol{A^{-1}}\boldsymbol{Y}

行列式(determinant)
正方行列の大きさ

\begin{vmatrix}
a & b \\
c & d 
\end{vmatrix}
=ad-bc

固有値・固有ベクトルの求め方

$ある行列\boldsymbol{A}$ に対して、以下の様な式が成り立つ様な、特殊なベクトル$\vec{x}$と、右辺の係数$\lambda$がある。

\boldsymbol{A}\vec{x}=\lambda\vec{x}

$行列\boldsymbol{A}$とその特殊なベクトル$\vec{x}$の積は、ただのスカラー数$\lambda$とその特殊なベクトル$\vec{x}$の積と同じ値になる。
特殊なベクトル$\vec{x}$とその係数$\lambda$を、行列$\boldsymbol{A}$に対する、固有ベクトル、固有値という。

具体例

\begin{pmatrix}
1 & 4\\
2 & 3
\end{pmatrix}
\begin{pmatrix}
1 \\
1 
\end{pmatrix}

=
\begin{pmatrix}
5 \\
5 
\end{pmatrix}
=5
\begin{pmatrix}
1 \\
1 
\end{pmatrix}

固有値λ＝５
固有ベクトル（のうちの1つ）

\vec{x}=
\begin{pmatrix}
1 & 4\\
2 & 3
\end{pmatrix}

$$\vec{x}　は固有ベクトルで１つに決まらない$$

固有値と固有ベクトルの問題

\begin{pmatrix}
3 & 2 & 0\\
0 & 2 & 0\\
0 & 0 & 1
\end{pmatrix}
の固有値、固有ベクトルを求めよ

\boldsymbol{A}=\begin{pmatrix}
3 & 2 & 0\\
0 & 2 & 0\\
0 & 0 & 1
\end{pmatrix}、
\lambdaを固有値とする\\
\boldsymbol{A}\vec{x}=\lambda\vec{x}\\
(\boldsymbol{A}-\lambda\boldsymbol{I})\vec{x}=\vec{0}
\vec{x}\neq\vec{0}より\\
\begin{vmatrix}
 \boldsymbol{A}-\lambda\boldsymbol{I} 
\end{vmatrix}=0

\begin{vmatrix}
3-\lambda & 2 & 0\\
0 & 2-\lambda & 0\\
0 & 0 & 1-\lambda
\end{vmatrix}=0\\
(3-\lambda)(2-\lambda)(1-\lambda)=0\\
\lambda=3 , 2 , 1\\

\begin{pmatrix}
3 & 2 & 0\\
0 & 2 & 0\\
0 & 0 & 1
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}=3
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}　よってx_2=0 , x_3=0\\
\begin{pmatrix}
3 & 2 & 0\\
0 & 2 & 0\\
0 & 0 & 1
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}=2
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}　よってx_1=-2x_2 , x_3=0\\
\begin{pmatrix}
3 & 2 & 0\\
0 & 2 & 0\\
0 & 0 & 1
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}=1
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}　よってx_1=0 , x_2=0 \\

したがって

\lambda=3の時\vec{x}=
\begin{pmatrix}
1\\
0\\
0
\end{pmatrix}の定数倍\\
\lambda=2の時\vec{x}=
\begin{pmatrix}
2\\
-1\\
0
\end{pmatrix}の定数倍\\
\lambda=1の時\vec{x}=
\begin{pmatrix}
0\\
0\\
1
\end{pmatrix}の定数倍\\

固有値分解

行列を分解することができる。→計算上有利。分類が可能。

$行列\boldsymbol{A}は、正方行列。この行列は、固有値を対角線上に並べた行列でそれ以外の成分は０$\
$行列\boldsymbol{V}は、行列\boldsymbol{A}の固有ベクトル$

\boldsymbol{A}\boldsymbol{V}=\boldsymbol{V}\boldsymbol{A}\\

上記は以下の様に変形できる。

\boldsymbol{A}=\boldsymbol{V}\boldsymbol{A}\boldsymbol{V}^{-1}\\

（具体例）

\boldsymbol{A}=
\begin{pmatrix}
1 & 4\\
2 & 3
\end{pmatrix}、
\lambdaを固有値とする\\
\boldsymbol{A}\vec{x}=\lambda\vec{x}\\
(\boldsymbol{A}-\lambda\boldsymbol{I})\vec{x}=\vec{0}
\vec{x}\neq\vec{0}より\\
\begin{vmatrix}
 \boldsymbol{A}-\lambda\boldsymbol{I} 
\end{vmatrix}=0\\
\begin{pmatrix}
1-\lambda & 4\\
2 & 3-\lambda
\end{pmatrix}=0\\
(3-\lambda)(1-\lambda)-2\times 4=0\\
\lambda^2-4\lambda-5=0\\
(\lambda-5)(\lambda+1)=0\\
\lambda=5 , -1\\

\begin{pmatrix}
1 & 4\\
2 & 3
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2
\end{pmatrix}=5
\begin{pmatrix}
x_1\\
x_2
\end{pmatrix}　よってx_1=x_2\\

\begin{pmatrix}
1 & 4\\
2 & 3
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2
\end{pmatrix}=-1
\begin{pmatrix}
x_1\\
x_2
\end{pmatrix}　よってx_1=2、x_2=-1\\

\begin{pmatrix}
1 & 4\\
2 & 3
\end{pmatrix}=
\begin{pmatrix}
1 & 2\\
1 & -1
\end{pmatrix}
\begin{pmatrix}
5 & 0\\
0 & -1
\end{pmatrix}
\begin{pmatrix}
\frac{1}{3} & \frac{2}{3}\\
\frac{1}{3} & -\frac{1}{3}
\end{pmatrix}^{-1}
\\

特異値分解

正方形以外の行列も分解できる。
$以下の様に、\vec{v}$に最終的に同じ様に
変形できるベクトルであれば、特異値分解ができる。

\boldsymbol{M}\vec{v}=\sigma\vec{u}\\
\boldsymbol{M}^{T}\vec{u}=\sigma\vec{v}

$上記の様に、特殊な単位ベクトル（\vec{v}、\vec{v}）$があるならば特異値分解ができる。

\boldsymbol{M}=\boldsymbol{U}\boldsymbol{S}\boldsymbol{V}^{T}
\boldsymbol{M}^{T}=\boldsymbol{V}\boldsymbol{S}^{T}\boldsymbol{U}^{T}

これらの積は

\boldsymbol{M}\boldsymbol{M}^{T}=\boldsymbol{U}\boldsymbol{S}\boldsymbol{V}^{T}\boldsymbol{V}\boldsymbol{S}^{T}\boldsymbol{U}^{T}
=\boldsymbol{U}\boldsymbol{S}\boldsymbol{S}^{T}\boldsymbol{U}^{T}

$つまり\boldsymbol{M}\boldsymbol{M}^{T}$を固有値分解すれば、特異値が求められる。
この行列で算出される特異値は２乗されていることに注意。
$\boldsymbol{M}\boldsymbol{M}^{T}$は左特異ベクトル
$\boldsymbol{M}^{T}\boldsymbol{M}$は右特異ベクトル

統計学

集合

記号説明。→別途作成

確率

頻度確率（客観確率）とベイズ確率（主観確率）

頻度確率・・・「くじ引き」など　$\frac{発生する数}{全部の数}$として計算する。数学的な考え方。
ベイズ確率・・・信念の度合い。事前の観測結果に基づいて得られた情報から割り出す。例えば、４人に１人くらいの割合で発生する。

確率の定義

P(A)=\frac{n(A)}{n(U)}=\frac{事象Aが起こる数}{すべての事象の数}

それでは、事象Aが発生しない確率を求める場合。

P(\bar{A})=1-P(A)=1-\frac{n(A)}{n(U)}=1-\frac{事象Aが起こる数}{すべての事象の数}

条件付き確率

ある事象Bが与えられた下で、Aとなる確率

P(A | B)=\frac{P(A \cap B)}{P(B)}=\frac{n(A \cap B)}{n(B)}

例題
袋の中に赤い玉 3 個と白い玉 2 個が入っている。赤い玉は A，B，C の文字が，白い玉には A，B の文字が，それぞれ 1 個に対して 1 文字ずつ記されている。以下の問いに答えよ。
問 5.2.1 出てきた玉が赤色であったとき，それに記されている文字が B である確率。

P(Bである|赤色である)=\frac{「赤い玉」かつ「B」である数}{「赤い玉」数}=\frac{1}{3}

問 5.2.2 出てきた玉に記されている文字が A であったとき，その玉の色が白色である確率。

P(白色である|Aである)=\frac{「A」かつ「白い玉」である数}{「A」数}=\frac{1}{2}

独立な事象の同時確率

お互いの発生には因果関係のない事象Aと事象Bが同時に発生する確率

P(A \cap B)=P(A)P(B | A)=P(A)P(B)

P(A \cup B)=P(A)+P(B)-P(A \cap B)

ベイズ則

P(A)P(B | A)=P(B)P(A | B)

統計

記述統計学と推測統計学

ディープラーニングでは、記述統計学を主に使う

確率変数と確率分布

確率変数・・・事象と結び付けられた変数（事象そのものを指す）
確率分布・・・事象の発生する確率の分布（離散値であれば表に示せる）

期待値

その分布における、確率変数の平均値 or 「あり得そう」な値

離散的な確率変数の期待値E(f)=
\sum_{k=1}^{n} P(X=x_k)f(X=x_k)

連続する確率変数の期待値E(f)=
\int P(X=x)f(X=x)dx

分散と共分散

分散

　・データの散らばり具合
　・データの各々の値が、期待値からどれだけズレているのか平均したもの



\begin{align}
分散Var(f) &=
E \Bigl( \bigl( f_{(X=x)}-E_{(f)} \bigr) ^2 \Bigr)\\
&=E \Bigl( \bigl(f_{(X=x)} \bigr) ^2 + \bigl( E_{(f)} \bigr) ^2 -2 \bigl( f_{(X=x)}E_{(f)} \bigr) \Bigr)\\
&=E \bigl(f_{(X=x)} \bigr) ^2 +E \bigl( E_{(f)} \bigr) ^2 -2E \bigl( f_{(X=x)}E_{(f)} \bigr)\\
&=E \bigl(f_{(X=x)}^2 \bigr) +\bigl(E_{(f)}\bigr)^2 -2\bigl(E_{(f)}\bigr) \bigl(E f_{(X=x)} \bigr)\\
&=E \bigl(f_{(X=x)}^2 \bigr) + \bigl(E_{(f)}\bigr)^2 -2 \bigl(E_{(f)}\bigr)^2\\
&=E \bigl(f_{(X=x)}^2 \bigr) -\bigl(E_{(f)}\bigr)^2
\end{align}

２乗をとった後なら絶対値をとる必要がなくなる。
２乗の平均をかけた後に、平均の２乗えお引くことで、分散を求められる。

共分散

・2つのデータ系列の傾向の違い
　・正の値→似た傾向
　・負の値→逆の傾向
　・ゼロを取れば関係性に乏しい

\begin{align}
共分散Cov(f,g)
&=E \Bigl( \bigl( f_{(X=x)}-E(f) \bigr)  \bigl( g_{(Y=y)}-E(g) \bigr) \Bigr)\\
&=E(fg)-E(f)E(g)
\end{align}

分散と標準偏差

\begin{align}
標準偏差　\sigma
&=\sqrt{Var(f)} \\
&=\sqrt{E \Bigl( \bigl( f_{(X=x)}-E_{(f)} \bigr) ^2 \Bigr)}
\end{align}

様々な確率分布

ベルヌーイ分布
　・コイントスのイメージ
　・裏と表で出る割合が等しくなくとも扱える。

P(x| \mu) =  \mu^x(1- \mu)^{1-x}

マルチヌーイ（カテゴリカル）分布
　・サイコロを転がすイメージ
　・各面の出る割合が等しくなくとも扱える

二項分布
・ベルヌーイ分布の多試行版

P(x| \lambda , n) = \frac{n!}{x!(n-x)!} \lambda^x(1- \lambda)^{n-x}

ガウス分布
　・釣鐘型の連続分布
真の分布が分からなくてもサンプルが多ければ正規分布に近づく！

N(x; \mu , \sigma^2) = \frac{1}{2\pi \sigma^2}exp \Bigl( -\frac{1}{2 \sigma^2} \bigl(x- \mu \bigr)^2 \Bigr)

推定

推定値と推定量

標本平均

標本分散・不偏分散

情報科学

自己情報量

※I は情報量，p(X)は事象 X の発生する確率。

\begin{align}
I = \log_2 \frac{1}{p(X)}=-\log_2 \Bigl( p(X) \Bigr)
\end{align}

上記式より、n枚のコインを１枚投げて１枚の表が出たという事象の情報量は何bitになるのか

\begin{align}
I &=-\log_2 \Bigl( {}_n \mathrm{C}_1 \bigl(  \frac{1}{2} \bigr)^n \Bigr)\\
&=-\log_2 \Bigl( {}_n \mathrm{C}_1 \Bigr) -\log_2 \bigl( \frac{1}{2} \bigr)^n \Bigr)\\
&=-\log_2 \bigl( n \bigr) -\log_2 \bigl( \bigl( \frac{1}{2} \bigr)^n \bigr)\\
&=-\log_2 \bigl( n \bigr) +n
\end{align}

シャノンエントロピ

エントロピが最大になるところが実際に発生する確率。

具体例
シャノンエントロピーは自己情報量の平均である。ある離散的な事象の確率分布を𝑃(𝑥)としたとき，シャノンエントロピーとしてふさわしいものは。

-\sum P(x) \log \Bigl(P(x) \Bigr)

ダイバージェンス

カルバック・ライブラー　ダイバージェンス

同じ事象・確率変数における異なる確率分布P、Qの違いを表す

交差エントロピ

深層学習:前編1

見出し 2

見出し 3

iStudy

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

深層学習:前編1(DNN_Day1)ーディープラーニングのための応用数学ー

応用数学

線形代数学

行列

画像は行列として考えると、特異値分解は、画像の圧縮に使える。機械学習の学習の際、事前学習の際に用いられる。

固有値・固有ベクトルの求め方

固有値分解

特異値分解

統計学

集合

確率

頻度確率（客観確率）とベイズ確率（主観確率）

条件付き確率

ある事象Bが与えられた下で、Aとなる確率

独立な事象の同時確率

ベイズ則

統計

記述統計学と推測統計学

確率変数と確率分布

期待値

分散と共分散

分散

共分散

分散と標準偏差

様々な確率分布

推定

推定値と推定量

標本平均

標本分散・不偏分散

情報科学

情報科学

自己情報量

シャノンエントロピ

ダイバージェンス

カルバック・ライブラー ダイバージェンス

交差エントロピ

深層学習:前編1

見出し 2

見出し 3

応用数学　

カルバック・ライブラー　ダイバージェンス