第1章:線形代数
◆ スカラーとベクトル
§ スカラー
・いわゆる普通の数
・四則演算が可能
・ベクトルに対する係数になれる
§ ベクトル
・大きさと向きを持つ
・矢印で図示される
・スカラーのセットで表示される
◆ 行列
・スカラーを表にしたもの
・ベクトルを並べたもの
§ 行列の積
行列$A$、$B$を
$A=\left(\begin{array}{ccc}a_{11} & a_{12}\\a_{21} & a_{22}\end{array}\right)\
B=\left(\begin{array}{ccc}b_{11} & b_{12}\\b_{21} & b_{22}\end{array}\right)とすると$
$$ AB=\left(\begin{array}{ccc}a_{11}b_{11}+a_{12}b_{21} & a_{11}b_{12}+a_{12}b_{22}\\a_{21}b_{11}+a_{22}b_{21} & a_{21}b_{12}+a_{22}b_{22}\end{array}\right) $$
§ 連立一次方程式は行列の積の形で表せる
$$
2x + 3y = 1
\\
5x+ y = 3 は$$
$$\left(\begin{array}{ccc}2 & 3\\5 & 1\end{array}\right)\
\left(\begin{array}{ccc}x\\y\end{array}\right)
=\left(\begin{array}{ccc}1\\3\end{array}\right) と表せる
$$
§ 単位行列
正方行列の対角成分が1で、それ以外が零である行列
2 X 2の単位行列$I$は
$$ I=\left(\begin{array}{ccc}1 & 0\\0 & 1\end{array}\right) となる $$
§ 逆行列
以下の式が成立するとき、$A^{-1}$は$A$の逆行列である
$AA^{-1} = A^{-1}A = I$
※ 逆行列が存在しない条件
連立一次方程式で表したときに解がない、解が1組に定まらない
§ 直交行列
転置行列と逆行列が等しくなる正方行列
($AA^{T} = A^{T}A = I$となる正方行列)
◆ 行列式
ある行列が2つの横ベクトルの組み合わせだと考えたとき
$\left(\begin{array}{ccc}a & b\\c & d\end{array}\right)=\left(\begin{array}{ccc}\vec{v}_1\\ \vec{v}_2\end{array}\right)$
でつくられる平行四辺形の面積が、逆行列の有無を判別する
この面積を
$\begin{vmatrix}a & b\\c & d\\ \end{vmatrix}=\begin{vmatrix}\vec{v}_1\\ \vec{v}_2\\ \end{vmatrix}$
と表し行列式と呼ぶ
この行列式を計算すると $ad - bc(平行四辺形の面積)$ となり、
$ad - bc = 0$ のとき逆行列を持たない
・複雑な場合の計算
$\begin{vmatrix}a_{11}&a_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33} \end{vmatrix}=a_{11}×(-1)^{1+1}\begin{vmatrix}a_{22}&a_{23}\\a_{32}&a_{33}\end{vmatrix}+a_{21}×(-1)^{2+1}\begin{vmatrix}a_{12}&a_{13}\\a_{32}&a_{33}\end{vmatrix}+a_{31}×(-1)^{3+1}\begin{vmatrix}a_{12}&a_{13}\\a_{22}&a_{23}\end{vmatrix}$
※ 式中の$(-1)^{1+1}$などの累乗の根拠は直前の$a_{11}$などで表される行と列の加算
§ 行列式の特徴
・ 同じ行ベクトルが含まれていると行列式はゼロ
$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{w} \
\vdots \
\vec{w} \
\vdots \
\vec{v}_n
\end{vmatrix}
= 0
$
・ 1つのベクトルがλ倍されると行列式はλ倍される
$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\lambda\vec{v}_i \
\vdots \
\vec{v}_n
\end{vmatrix}=$$\lambda
\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_i \
\vdots \
\vec{v}_n
\end{vmatrix}$
・ 他の成分が全部同じでi番目のベクトルだけが違った場合、行列式の足し合わせになる
$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_i \ + \vec{w}\
\vdots \
\vec{v}_n
\end{vmatrix}=$$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_i \
\vdots \
\vec{v}_n
\end{vmatrix}
+
\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{w} \
\vdots \
\vec{v}_n
\end{vmatrix}$
・ 行を入れ替えると符号が変わる
$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_n
\end{vmatrix}=$$-
\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_n
\end{vmatrix}
$
なぜか
$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_n
\end{vmatrix}$$+
\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_n
\end{vmatrix}
$$=\begin{vmatrix}
\vec{v}_1\
\vdots\
\vec{v}_s \ + \vec{v}_t\
\vdots\
\vec{v}_t \ + \vec{v}_s\
\vdots\
\vec{v}_n
\end{vmatrix}=0(同じベクトルが含まれるため)$
より
$\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_n
\end{vmatrix}$$+
\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_n
\end{vmatrix}=0$ $ ⇒ \begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_n
\end{vmatrix}$$=-
\begin{vmatrix}
\vec{v}_1 \
\vdots \
\vec{v}_t \
\vdots \
\vec{v}_s \
\vdots \
\vec{v}_n
\end{vmatrix}
$
◆ 固有値・固有ベクトル
§ 固有値・固有ベクトルの定義
n次正方行列 $A$に対して $A\vec{v} = \lambda\vec{v}\ $を満たすスカラー$\lambda$を固有値、
非零ベクトル$\vec{v}$を固有ベクトルと呼ぶ
例1)上記の定義をもとに下記$A$行列の固有値・固有ベクトルを求めてみる
$A=\left(\begin{matrix}2 & 5 \\3 & 4\end{matrix}\right)$
$A\vec{v}=\lambda\vec{v} → (A-\lambda I)\vec{v}=0(Iは単位ベクトル)とできるので$
$A-\lambda I=\left(\begin{matrix}2 & 5 \\3 & 4\end{matrix}\right)-\lambda\left(\begin{matrix}1 & 0 \\0 & 1\end{matrix}\right)=0$
$|A-\lambda I|=\begin{vmatrix}2-\lambda & 5 \\3 & 4-\lambda\end{vmatrix}=0$
これを計算すると $(\lambda-7)(\lambda+1)=0$
よって$\lambda = -1, 7$が固有値となる
そして固有ベクトルは以下の式より求める
$\left(\begin{matrix}2 & 5 \\3 &4\end{matrix}\right)\left(\begin{matrix}v_1\\v_2\end{matrix}\right)=\lambda\left(\begin{matrix}v_1\\v_2\end{matrix}\right) より$
下記2式が導き出される
$2v_1+5v_2 = \lambda v_1\\3v_1+4v_2 = \lambda v_2$
導き出された連立方程式に各固有値($\lambda$)を代入して解くと、
固有値=-1のとき固有ベクトル=(5,-3)、固有値=7のとき固有ベクトル=(1,1)
◆ 固有値分解
ある実数を正方形にならべて作られた行列$A$が固有値$\lambda_1,\lambda_2,・・・$と
固有ベクトル$\vec{v}_1,\vec{v}_2,・・・$を持ったとする。この固有値を対角線上に並べた行列
(それ以外の成分は0)
$$ \Lambda = \begin{pmatrix} \lambda_1 & & \\ & \lambda_2 & \\ & & \ddots \end{pmatrix} $$
と、それに対応する固有ベクトルを並べた行列 $$V = (\vec{v}_1 \quad \vec{v}_2 \quad \dots)$$ を用意したとき、それらは $$AV = V\Lambda$$ と関係付けられる。したがって $$A = V\Lambda V^{-1} $$ と変形できる。このように正方形の行列を上記ののような3つの行列の積に変換することを 固有値分解という。 ・固有値分解は行列の累乗計算に役に立つ $A^n=V\Lambda^n V^{-1}$ 例2)先ほどの 例1)で求めた固有値、固有ベクトルを当てはめてみる
$A=\left(\begin{matrix}5 & 1 \\ -3 & 1\end{matrix}\right)$$\left(\begin{matrix}-1 & 0 \\0 & 7\end{matrix}\right)$$\left(\begin{matrix}5 & 1 \\ -3 & 1\end{matrix}\right)^{-1}$
◆ 特異値分解
正方行列以外は固有値分解はできないが似たことはできる
$M\vec{v} = \sigma \vec{u} \
M^T\vec{u} = \sigma \vec{v}$
このような特殊な単位ベクトルがあるならば特異値分解できる。
$\Large{M}$ $\Large{=}$ $\Large{U}$$\Large{S}$$\Large{V}$$^{-1}$
※ 文字の上の〇×〇は行×列
$ 特異値の求め方
$MV = US M^TU = VS^T \\M = USV^{-1} M^T = VS^T U^{-1}$
これらの積は
$MM^T = USV^{-1}VS^TU^{-1} = USS^TU^{-1}$
つまり$MM^T$を固有値分解すれば、その左特異ベクトル
(ただし単位ベクトルから作られること)と特異値の2乗が求められる。
また右特異ベクトルは
$M^TM = VS^TU^{-1}USV^{-1} = VS^TSV^{-1}$
の固有値分解で求められる。
第2章:確率・統計
◆ 条件付確率
ある事象X=xが与えられた下で、Y=yとなる確率
例)雨が降っている(X)条件下で交通事故にあう(Y)確率
$$P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}$$
◆ 独立な事象の同時確率
お互いの発生には因果関係のない事象X=xと事象Y=yが同時に発生する確率
$$P(X=x,Y=y) = P(X=x)P(Y=y) = P(Y=y,X=x)$$
◆ ベイズ測
P(A):事象Aが起きる確率
P(B):事象Bが起きる確率
P(B|A):事象Aが起きた後での、事象Bの確率
P(A|B):事象Bが起きた後での、事象Aの確率
とした場合
$$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$
と表すことができる ◆ 確率変数と確率分布
§ 確率変数
・事象と結びつけられた数値
・事象そのものを指すと解釈する場合も多い
§ 確率分布
・事象の発生する確率の分布
・離散値であれば表に示せる
◆ 期待値
・その分布における、確率変数の平均の値 or 「ありえそうな」値
§ 離散値の場合
期待値$E(f)$は以下のように表せる
$$E(f)=\sum_{k=1}^n P(X=x_k)f(X=x_k)\\P(X=x_k)は確率、f(X=x_k)は確率変数$$
§ 連続値の場合
期待値$E(f)$は以下のように表せる
$$E(f)=\int P(X=x)f(X=x)dx\\P(X=x)は確率密度、f(X=x)は確率変数$$
◆ 分散と共分散
§ 分散
・データの散らばり具合
・データの各々の値が、期待値からどれだけズレているか平均したもの
$分散Var(f)\\ =E \bigl((f_{(X=x)} - E_{(f)})^2 \bigr) \\ =E({f^2}_{(X=x)})-(E{(f)})^2 $
§ 共分散
・2つのデータ系列の傾向の違い
・正の値を取れば似た傾向
・負の値を取れば逆の傾向
・ゼロを取れば関係性に乏しい
$共分散 Cov(f,g)\\ =E \bigl( (f_{(X=x)} - E (f) \bigr ) \bigl( (g_{(Y=y)} - E (g) \bigr ) \\ =E(fg) - E(f)E(g) $
§ 分散と標準偏差
分散の平方根を取ると標準偏差が求められる
$標準偏差\sigma=\sqrt{Var(f)} \\ =\sqrt{E\bigl((f_{(X=x)} - E_{(f)})^2 \bigr)} $
◆ さまざまな確率分布
§ ベルヌーイ分布
・コイントスのイメージ
・裏と表で出る割合が等しくなくとも扱える
$$P(x|u) = u^x(1-u)^{1-x}$$
§ マルチヌーイ分布(カテゴリカル分布)
・さいころを転がすイメージ
・各面の出る確率が等しくなくとも扱える
$$P(x|u) = \prod_{i=1}^ku_{i}^{x_i}$$
§ 二項分布
・ベルヌーイ分布の多試行版
$P(x|\lambda ,n)=\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}$
※ 2項分布の分散はp(1-p)
§ ガウス分布(または正規分布)
・釣鐘型の連続分布
・平均値と最頻値と中央値が一致する
・平均値を中心にして左右対称である
$$N(x:\mu ,\sigma^2)=\sqrt\frac{1}{{2\pi\sigma^2}}\exp\left(-\frac{1}{2\sigma^2}(x-\mu)^2\right)$$
§ ポアソン分布 ・二項分布を近似した分布 ・二項分布において試行回数がとても多くかつ極めて起こりにくい場合に ポアソン分布に近づく$$f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$$
第3章:情報理論 ◆ 自己情報量 ・対数の底が2のとき、単位はbit ・対数の底がネイピアのe2のとき、単位はnat
$$I(x)=-\log({P(x)})=\log(W(x))\\※W(x)は事象の数$$
◆ シャノンエントロピー
・自己情報量の期待値
$$ H(x) = E(I(x)) \\ = -E(\log(P(x)))\\ = -\Sigma (P(x) \log(P(x))) $$
◆ 結合エントロピー
$H(X,Y)=-\displaystyle\sum^{M_X}_ {i=1}\sum^{M_Y}_{j=1}P(x_i,y_j)log_2P(x_i,y_j)$
表1
$P(x|y)$ | $Y$(天気) | 計 | ||
$y_1$(晴れ) | $y_2$(雨) | |||
$X$(予報) | $x_1$(はずれ) | 0.1 | 0.2 | $P$(予報はずれ)=0.3 |
$x_2$(当たり) | 0.5 | 0.2 | $P$(予報当たり)=0.7 | |
計 | $P$(晴れ)=0.6 | $P$(雨)=0.4 |
◆ 条件付きエントロピー $H(X|Y)=-\sum_yp(y)H(X|Y=y)$
表2(表1より)
$H(予報|天気)$ | $Y$(天気) | 計 | ||
$y_1$(晴れ) | $y_2$(雨) | |||
$X$(予報) | $x_1$(はずれ) | 0.1/0.6=$\frac{1}{6}$ | 0.2/0.4=$\frac{1}{2}$ | $P$(予報はずれ)=0.3 |
$x_2$(当たり) | 0.5/0.6=$\frac{5}{6}$ | 0.2/0.4=$\frac{1}{2}$ | $P$(予報当たり)=0.7 | |
計 | $P$(晴れ)=0.6 | $P$(雨)=0.4 |
◆ 相互情報量 $I(X;Y)=H(X)-H(X|Y)$ 上記の表1,表2の場合で計算すると $I(予報;天気)=H(予報)-H(予報|天気)$ $I(予報;天気)=-(0.6×log0.6+0.4×log0.4) \\\ −\frac{1}{6}×log\frac{1}{6}−\frac{5}{6}×log\frac{5}{6} \\\ +\frac{1}{2}×log\frac{1}{2}−\frac{1}{2}×log\frac{1}{2}$ ※ 結合エントロピーと相互情報量の関係は以下のように表せる $I(X,Y)=H(X)+H(Y)-I(X;Y)$
◆ カルバック・ライブラー・ダイバージェンス
・同じ事象・確率変数における異なる確率分布P,Qの違いを表す
・$D_{KL}(P, ||Q)≧0$が常に成立し、等号が成立するのはP,Qの確率分布が一致する場合
・距離に似ているが、$D_{KL}(P, ||Q)≠D_{KL}(Q, ||P)$であり、
距離の公理を満たしていない
$$D_{KL}(P\, ||Q)=\sum_{x}P(x)log\frac{P(x)}{Q(x)}$$
◆ 交差エントロピー
・KLダイバージェンスの一部分を取り出したもの
・Qについての自己情報量をPの分布で平均している
$$H (P,Q)=H(P)+D_{KL}(P\, ||Q)\\ =-\sum_{x}P(x)logQ(x)$$