1. 線形代数
スカラーとベクトルの違い
スカラー
•だいたい、いわゆる普通の数
•+−×÷の演算が可能
•ベクトルに対する係数になれる
ベクトル
•「大きさ」と「向き」を持つ
•矢印で図示される
•スカラーのセットで表示される
行列
•スカラーを表にしたもの
•ベクトルを並べたもの(ベクトルのベクトル)
縦方向を列、横方向を行と言う。
単位行列
任意のn次正方行列 $A$ に対して、次の式が成り立つ n次正方行列 $I$のこと。
$$IA=AI=A$$
逆行列
ある行列 $A$ に対して、かけ算すると単位行列 $I$ になるもので、$A^{-1}$と表す。
$$AA^{-1}=A^{-1}A=I$$
行列式(次項)が0のとき、逆行列は存在しない。
行列式
2行2列の行列式
|A|=
\begin{vmatrix}
a & b \\
c & d \\
\end{vmatrix}
=ad-bc
3行3列の行列式
|A|=
\begin{vmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{vmatrix}
=a_{11}
\begin{vmatrix}
a_{22} & a_{23}\\
a_{32} & a_{33} \\
\end{vmatrix}
-a_{21}
\begin{vmatrix}
a_{12} & a_{13}\\
a_{32} & a_{33} \\
\end{vmatrix}
+a_{31}
\begin{vmatrix}
a_{12} & a_{13}\\
a_{22} & a_{23} \\
\end{vmatrix}\\
=a_{11}a_{22}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32}-a_{11}a_{23}a_{32}
-a_{12}a_{21}a_{33}-a_{13}a_{22}a_{31}
固有値
ある正方行列$A$に対して、$\vec{0}$ではない、ベクトル$\vec{x}$に対して次の式が成り立つときの$\lambda$のこと。
(このときのベクトル$\vec{x}$は固有ベクトルとよばれる )
$$A\vec{x}=\lambda\vec{x}$$
つまり、行列$A$とベクトル$\vec{x}$の積は,ただのスカラーの数$\lambda$とベクトル$\vec{x}$との積と同じ値になる。
このとき、
$$(A-\lambda I)\vec{x}=\vec{0}$$
$(A-\lambda I)$の逆行列が存在すると仮定すると、それを上式の両辺に左からかけて、$\vec{x}=\vec{0}$となり、矛盾する。ゆえに、背理法により、$(A-\lambda I)$の逆行列は存在しない。すなわち、$|A-\lambda I|=0$ である。
これを計算することで、$\lambda$ を求めることができる。
固有値分解
ある実数を正方形にならべて作られた行列$A$が固有値$\lambda_1$, $\lambda_2$, $\lambda_3$,・・・と固有ベクトル$\vec{v_1}$, $\vec{v_2}$, $\vec{v_3}$, ・・・を持ったとする。この固有値を対角線上に並べた行列(それ以外の成分は0)$\Lambda$と、それに対応する固有ベクトルを並べた行列$V$を用意したとき,それらは
$$AV=V\Lambda$$
と関係付けられる。したがって、
$$A=V\Lambda V^{-1}$$
と変形できる。このように正方形の行列を上述の様な3つの行列の積に変換することを固有値分解という。この変換によって行列の累乗の計算が容易になる等の利点がある。
特異値分解
正方行列以外の行列の固有値分解
ある行列$M$に対して、
$$M=USV^{-1}$$
と分解する。$U$、$V$は直交行列。
2. 確率
頻度確率(客観確率)
•発生する頻度
•例:「10本のうち一本だけ当たりのクジを引いて当選する確率を調べたところ10%であった」という事実
ベイズ確率(主観確率)
•信念の度合い
•例:「あなたは40%の確率でインフレンザです」という診断
条件付き確率
事象$A$起きたとき、事象$B$が起こる確率$P(B|A)$は
$$P(B|A)=\frac{P(A\cap B)}{P(A)}$$
独立な事象の同時確率
事象$A$と事象$B$が独立である場合、
$$P(A\cap B)=P(A)P(B)$$
ベイズ則
$$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$$
確率変数
•事象と結び付けられた数値
•事象そのものを指すと解釈する場合も多い
確率分布
•事象の発生する確率の分布
•離散値であれば表に示せる
期待値
•その分布における,確率変数の平均の値
$$E(f(X))=\sum_{k=1}^n P(X=x_k)f(X=x_k)$$
連続値の場合の期待値$E(f(X))$の定義は
$$E(f(X))=\int_{-\infty}^{\infty}P(X=x)f(X=x)dx$$
分散
•データの散らばり具合
•データの各々の値が,期待値からどれだけズレているのか平均したもの
$$V(f(X))=E\left( \Big(f(X=x)-E(f(x))\Big)^2\right)=E(f(X)^2)-\Big(E(f(X)) \Big)^2$$
共分散
•2つのデータ系列の傾向の違い
•正の値を取れば似た傾向
•負の値を取れば逆の傾向
•ゼロを取れば関係性に乏しい
$$Cov(f(X),g(Y))=E\bigg( \Big(f(X=x)-E(f(X)) \Big) \Big( g(Y=y)-E(g(Y)) \Big) \bigg)\
=E\Big(f(X=x)g(Y=y) \Big)-E\Big(f(X=x)\Big)E\Big(g(Y=y)\Big)$$
ベルヌーイ分布
•コイントスのイメージ
•裏と表で出る割合が等しくなくとも扱える
マルチヌーイ(カテゴリカル)分布
•さいころを転がすイメージ
•各面の出る割合が等しくなくとも扱える
二項分布
•ベルヌーイ分布の多試行版
ガウス分布
•釣鐘型の連続分布
3. 情報理論
自己情報量
•対数の底が2のとき,単位はビット(bit)
•対数の底がネイピアのeのとき,単位は(nat)
$$I(x)=\log\frac{1}{P(x)}=\log\Big(P(x)\Big)^{-1}=-\log P(x)$$
シャノンエントロピー
•自己情報量の期待値
$$H(x)=E(I(x))=-E(\log(P(x)))=-\sum_{}P(x)\log P(x)$$
カルバック・ライブラーダイバージェンス
•同じ事象・確率変数における異なる確率分布$P$、$Q$の違いを表す
$$D_{KL}(P, ||Q)=E_{X\sim P}\left[\log\frac{P(x)}{Q(x)}\right]=E_{X\sim P}\left[\log P(x)-\log Q(x) \right]$$
交差エントロピー
•KLダイバージェンスの一部分を取り出したもの
•$Q$についての自己情報量を$P$の分布で平均している
$$H(P,Q)=H(P)+D_{KL}(P, ||Q)$$