線形代数
固有値・固有ベクトル
行列Aに対して、以下の公式を満たすスカラーλが存在する。
この時、スカラー$λ$を固有値、$\vec{x}$を固有ベクトルという。
A \vec{x} = λ\vec{x} ・・・① \\
A : 行列 λ : 固有値 \vec{x} : 固有ベクトル \\
解き方
単位行列$I$を用いて、$|A-λI|=0$となる$λ$を見つける。
(A-λI) \vec{x} = \vec{0} \\
ここで、
A =
\begin{pmatrix}
a&b\\
c&d
\end{pmatrix}
とすると、 \\
\\
\begin{vmatrix}
a-λ & b \\
c & d-λ
\end{vmatrix}
= 0 \\
(a-λ)(d-λ)-bc=0 ・・・②
②を解くことにより、固有値λが見つかる。
λを①に代入した連立方程式から、固有ベクトル xが得られる。
固有値分解
正方行列$A$(行と列が同じ数の行列)を以下のような3つの行列の積に変換できる。
A = VΛV^{-1} \\
$Λ$ : 固有値λ1, λ2, λ3,... の対角行列(対角上以外の要素は0)
Λ =
\begin{pmatrix}
λ1& & & \\
&λ2& & \\
& & λ3& \\
& & & …
\end{pmatrix}
\\
$V$ : 固有ベクトル$v1$,$v2$,$v3$,...を並べた行列
V =
\begin{pmatrix}
v1&v2&v3&… \\
\end{pmatrix}
\\
特異値分解
ある行列$M$(正方行列とは限らない)に対して、次のような式で表される各行列の値を求める方法。
M = USV^{-1} \\
ここで、行列$S$は特異値$σ_1$,$σ_2$,$σ_3$ ,...を並べた行列。(Sは正方行列とは限らない)
S=
\begin{pmatrix}
σ_1 & & & \\
& σ_2 & & \\
& & σ_3 & \\
& & & & … \\
\end{pmatrix}
行列$U$,$V$はそれぞれ、左特異ベクトル、右特異ベクトル(行列$U$,$V$は大きさが1の単位行列)
U=
\begin{pmatrix}
u_1 & u_2 & u_3 & … \\
\end{pmatrix}
,
V=
\begin{pmatrix}
v_1 & v_2 & v_3 & … \\
\end{pmatrix}
解き方
MM^{t}=USS^{t}U^{-1}
となるので、$MM^{t}$を固有値分解すると、左特異ベクトル$U$と$SS^{t}$が得られ、
$SS^{t}$は特異値の2乗の対角行列になるので、固有値$λ_i$は特異値$σ_i$の2乗になる。
同様に、右特異ベクトルは$M^{t}M=VS^{t}SV^{-1}$を解くことで得られる。
確率・統計
ベイズ則(ベイズの定理)
P(X)P(Y|X)=P(Y)P(X|Y)=P(X∩Y) \\
P(X) : 事象Xが起きる確率, P(X|Y) : 事象Xが起きたもとで、事象Yが起きる確率(条件付き確率)
分散・共分散
分散
データの散らばり具合を表す。
分散が大きいほど、データのばらつきが大きい。
Var(f) = σ^2 = E((f_(x)-E_(f))^2)
*分散$σ^2$に対して、$σ$は標準偏差という。
共分散
2つのデータの近似性を表す。
共分散が 正の値=関連性ありそう、負の値=関連性なさそう。
(0だと、関係性に乏しい)
Cov(f,g) = E( (f_(x)-E_(f) )( g_(y)-E(g) )
*共分散の傾向は例外があるので気を付ける。
確率分布
ベルヌーイ分布
「コインの表か裏」、「勝ちか負け」の2つの結果しかない場合、
確率μでx=1になるとすると、確率1-μでx=0になる。
それを、次のような式を表すことができる。
P(x|μ) = μ^x(1-μ)^{1-x} \\
*$x$は0か1しか取らない。$0≦μ≦1$である。
マルチヌーイ(カテゴリカル)分布
サイコロのように、取りうる値が複数パターンある時の確率の表し方。
P(x|μ) = μ_1^{[x=1]}μ_2^{[x=2]}μ_3^{[x=3]}...
- $[x=k]$ : $x=k$の時に、値が1となり、それ以外は0になる。(アイバーソンの記法という)
二項分布
ベルヌーイ分布のような、2つの結果しかない事を複数回繰り返した場合、
確率λでx=1になり、それをn回試行した時、x=1がk回となる確率は次のような式で表すことができる。
P(x|λ,n) = _n C _k λ^x(1-λ)^{n-x} = \frac{n!}{k!(n-k)!}λ^x(1-λ)^{n-x}
正規分布(ガウス分布)
二項分布などの離散値の分布とは違い、連続型の確率分布
平均を$μ$、分散を$σ^2$とすると、次の式で表される。
N(x;μ,σ^2) = \sqrt{\frac{1}{2πσ^2}}exp(\frac{1}{2σ^2}(x-μ)^2)
*$x$の2次関数になっているため、$μ$を中心とした、頂点がなだらかな釣り鐘型の関数となる。
情報理論
自己情報量
ある情報がもつ珍しさを表している。
確率$P(x)$で起こる、事象$x$の自己情報量$I$は次の式で表される。
I(x) = -logP(x) = log(W(x))
*対数を取っているのは、例えば2つの事が起こった場合、情報量は感覚的に掛け算よりも足し算の方が近いため
シャノンエトロピー (平均情報量)
自己情報量の期待値
\begin{align}
H(x) &= E(I(x)) \\
&= -E(log(P(x))) \\
&= -Σ(P(x)log(P(X)))
\end{align}
カルバック・ライブラー ダイバージェンス (KLダイバージェンス)
元の情報$Q(x)$に対して、新たな情報$P(x)$を入手した時、新たな情報$P(x)$の目新しさを表す。
\begin{align}
D_{KL}(P||Q) &= E_{x~P} [log\frac{P(x)}{Q(x)}]\\
&= E_{x~P} [logP(x) - logQ(x)]
\end{align}
交差エントロピー
Qについて、自己情報量をPの分布で平均化したもの
\begin{align}
H(P,Q) &= H(P) + D_{KL}(P||Q) \\
&= -E_{x~P} logQ(x)
\end{align}