第一章 線形代数
1) 固有値・固有ベクトル
ある行列$A$に対して、
Ax =λx
となるλが固有値、$x$が固有ベクトル。
具体的にλと$x$求めるためには、
(A-λE)x = 0
と変形してあげれば、det((A-λE))=0を計算してあげれば良いことがわかる。
理由:逆行列が存在してしまうと$x$=0となってしまうため。
det((A-λE))=0からλを計算して、そのλを(A-λE)$x$ = 0に代入することで、
対応する固有ベクトル$x$が求まる。
2) 固有値分解
固有値を対角線上に並べた行列$ A $(それ以外の成分は0)と,
それに対応する固有ベクトルを並べた行列$ 𝑉 $を用意したとき,
それらは$ AV=VA $と関係付けられる。
($ A $の対角成分以外が0なことから、簡単に示せる)
$ AV=VA $と関係付けられることから、
A=V𝛬V^{-1}
と変形できることがわかるが、
このように正方形の行列を上述の様な3つの行列の積に変換することを固有値分解という。
(Vは固有ベクトルから作っているので、逆行列が存在する点に注意)
3) 特異値・特異ベクトル
ある行列が正方行列でなかった場合に、固有値、固有ベクトルで分解するような話。
Mv=σu\\
M^T u=σ v
となる特異値σや特異ベクトル$ u,v $があれば、特異値分解できる。
4) 特異値分解
MV = US\\
から
M=USV^{-1}
実際に計算するときは、$M M^T$を計算してあげれば正方行列になるので、
それを固有分解してあげる。
すると、
𝐴=V𝛬V^{-1}
の形にできるので、
MM^T=USV^{-1}VSU^{-1}=US^2U^{-1}=V𝛬V^{-1}
となり、$U$と$S$の2乗がもとまる。
$V$も同様に$M^T M$を計算すれば良い。
第二章確率・統計
1) 条件付き確率
変数Xが値xの時に、変数Yが値yをとる確率
P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
2) ベイズ則
条件式確立の式を
P(X=x|Y=y)P(Y=y)=P(Y=y,X=x)
と変形してあげれば、
P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
=\frac{P(X=x|Y=y)P(Y=y)}{P(X=x)}
3) 期待値・分散
E(x)=\sum_{i=1}^n p_ix_i\\
V(x)=\sum_{i=1}^n p_i(x_i-\bar{x})^2
実際に分散を計算するときは、
V(x)=E(x_i^2)-(E(x))^2
でやることが多いかもしれない。(計算が楽なので)
4) 様々な確率分布
ベルヌーイ分布…2値
マルチヌーイ(カテゴリカル)分布…多値
二項分布…ベルヌーイ分布の多試行版
ガウス分布…釣鐘型の連続分布
第三章情報理論
1) 自己情報量・シャノンエントロピー
自己情報量
I(x) = -log(P(x)) = log(W(x))
ここでPは確率
確率は定義上、0〜1の間をとり、logは0〜1の間で常に負の値を取る点に注意。
必ず起きる事象(確率1の事象)に対しての自己情報量は、
I(x) = -log(1) = 0
となっている。
シャノンエントロピー
自己情報量の期待値
H(x) = E(I(x)) = -E(log(P(x)))
2) KLダイバージェンス・交差エントロピー
KLダイバージェンス
Kullback-Leibler divergence ( KLダイバージェンス、KL情報量 )
D_{KL}(P||Q) = E_{x\sim P}(log\frac{P(x)}{Q(x)})
交差エントロピー
H(P,Q) = -E_{x\sim P}(log(Q(x))
KLダイバージェンスの一部分を取り出したもの。
Qについての自己情報量をPの分布で平均している。
確かにQについての自己情報量をPの分布で平均しているあたり、交差している感じがある。