0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

AIを学ぶために必要な数学

Last updated at Posted at 2019-04-30

線形代数

固有値・固有ベクトル

行列Aに対して、以下の公式を満たすスカラーλが存在する。
この時、スカラー$λ$を固有値、$\vec{x}$を固有ベクトルという。

A \vec{x} = λ\vec{x} ・・・① \\

A : 行列 λ : 固有値 \vec{x} : 固有ベクトル \\

解き方

単位行列$I$を用いて、$|A-λI|=0$となる$λ$を見つける。

(A-λI) \vec{x} = \vec{0} \\
ここで、
A = 
\begin{pmatrix}
a&b\\
c&d
\end{pmatrix}
とすると、 \\

\\

\begin{vmatrix}
a-λ & b \\
c & d-λ
\end{vmatrix}
= 0 \\

(a-λ)(d-λ)-bc=0 ・・・②

②を解くことにより、固有値λが見つかる。
λを①に代入した連立方程式から、固有ベクトル xが得られる。

固有値分解

正方行列$A$(行と列が同じ数の行列)を以下のような3つの行列の積に変換できる。


A = VΛV^{-1} \\

$Λ$ : 固有値λ1, λ2, λ3,... の対角行列(対角上以外の要素は0)

Λ = 
\begin{pmatrix}
λ1& & & \\
 &λ2& & \\
 & & λ3& \\
 & & & …


\end{pmatrix}
\\

$V$ : 固有ベクトル$v1$,$v2$,$v3$,...を並べた行列

V = 
\begin{pmatrix}
v1&v2&v3&… \\
\end{pmatrix}
\\

特異値分解

ある行列$M$(正方行列とは限らない)に対して、次のような式で表される各行列の値を求める方法。

M = USV^{-1} \\

ここで、行列$S$は特異値$σ_1$,$σ_2$,$σ_3$ ,...を並べた行列。(Sは正方行列とは限らない)

S=
\begin{pmatrix}
σ_1 & & &  \\
 & σ_2 & &  \\
 & & σ_3 & \\
 & & & & … \\

\end{pmatrix}

行列$U$,$V$はそれぞれ、左特異ベクトル、右特異ベクトル(行列$U$,$V$は大きさが1の単位行列)

U=
\begin{pmatrix}
u_1 & u_2 & u_3 & …  \\
\end{pmatrix}
,
V=
\begin{pmatrix}
v_1 & v_2 & v_3 & …  \\
\end{pmatrix}

解き方

MM^{t}=USS^{t}U^{-1}

となるので、$MM^{t}$を固有値分解すると、左特異ベクトル$U$と$SS^{t}$が得られ、
$SS^{t}$は特異値の2乗の対角行列になるので、固有値$λ_i$は特異値$σ_i$の2乗になる。

同様に、右特異ベクトルは$M^{t}M=VS^{t}SV^{-1}$を解くことで得られる。

確率・統計

ベイズ則(ベイズの定理)

P(X)P(Y|X)=P(Y)P(X|Y)=P(X∩Y) \\
P(X) : 事象Xが起きる確率, P(X|Y) : 事象Xが起きたもとで、事象Yが起きる確率(条件付き確率)

分散・共分散

分散

データの散らばり具合を表す。
分散が大きいほど、データのばらつきが大きい。

Var(f) = σ^2 = E((f_(x)-E_(f))^2)

*分散$σ^2$に対して、$σ$は標準偏差という。

共分散

2つのデータの近似性を表す。
共分散が 正の値=関連性ありそう、負の値=関連性なさそう。
(0だと、関係性に乏しい)

Cov(f,g) = E( (f_(x)-E_(f) )( g_(y)-E(g) )

*共分散の傾向は例外があるので気を付ける。

確率分布

ベルヌーイ分布

「コインの表か裏」、「勝ちか負け」の2つの結果しかない場合、
確率μでx=1になるとすると、確率1-μでx=0になる。
それを、次のような式を表すことができる。

P(x|μ) = μ^x(1-μ)^{1-x} \\

*$x$は0か1しか取らない。$0≦μ≦1$である。

マルチヌーイ(カテゴリカル)分布

サイコロのように、取りうる値が複数パターンある時の確率の表し方。

P(x|μ) = μ_1^{[x=1]}μ_2^{[x=2]}μ_3^{[x=3]}...
  • $[x=k]$ : $x=k$の時に、値が1となり、それ以外は0になる。(アイバーソンの記法という)

二項分布

ベルヌーイ分布のような、2つの結果しかない事を複数回繰り返した場合、
確率λでx=1になり、それをn回試行した時、x=1がk回となる確率は次のような式で表すことができる。

P(x|λ,n) = _n C _k λ^x(1-λ)^{n-x} = \frac{n!}{k!(n-k)!}λ^x(1-λ)^{n-x}

正規分布(ガウス分布)

二項分布などの離散値の分布とは違い、連続型の確率分布
平均を$μ$、分散を$σ^2$とすると、次の式で表される。

N(x;μ,σ^2) = \sqrt{\frac{1}{2πσ^2}}exp(\frac{1}{2σ^2}(x-μ)^2)

*$x$の2次関数になっているため、$μ$を中心とした、頂点がなだらかな釣り鐘型の関数となる。

情報理論

自己情報量

ある情報がもつ珍しさを表している。
確率$P(x)$で起こる、事象$x$の自己情報量$I$は次の式で表される。

I(x) = -logP(x) = log(W(x))

*対数を取っているのは、例えば2つの事が起こった場合、情報量は感覚的に掛け算よりも足し算の方が近いため

シャノンエトロピー (平均情報量)

自己情報量の期待値

\begin{align}
H(x) &= E(I(x)) \\
&= -E(log(P(x))) \\
&= -Σ(P(x)log(P(X)))
\end{align}

カルバック・ライブラー ダイバージェンス (KLダイバージェンス)

元の情報$Q(x)$に対して、新たな情報$P(x)$を入手した時、新たな情報$P(x)$の目新しさを表す。

\begin{align}
D_{KL}(P||Q) &= E_{x~P} [log\frac{P(x)}{Q(x)}]\\ 
&= E_{x~P} [logP(x) - logQ(x)]
\end{align}

交差エントロピー

Qについて、自己情報量をPの分布で平均化したもの


\begin{align}
H(P,Q) &= H(P) + D_{KL}(P||Q) \\
&= -E_{x~P} logQ(x)
\end{align}

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?