線形代数
行列式
特徴として以下の3つが挙げられている。
- 行列式性質1
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{w} \\
\vdots \\
\vec{w} \\
\vdots \\
\vec{v_n}
\end{vmatrix}
= 0
- 行列式性質2
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\lambda \vec{v_i} \\
\vdots \\
\vec{v_n}
\end{vmatrix}
= \lambda
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{v_i} \\
\vdots \\
\vec{v_n}
\end{vmatrix}
- 行列式性質3
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{v_i} + \vec{w} \\
\vdots \\
\vec{v_n}
\end{vmatrix}
=
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{v_i} \\
\vdots \\
\vec{v_n}
\end{vmatrix}
+
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{w} \\
\vdots \\
\vec{v_n}
\end{vmatrix}
講義では平行四辺形(符号付)と行列式の対応で説明されていたが、行列式性質3については
ベクトルvi と ベクトルw が平行ではないケースで、直感で理解できなかった。
式を覚えるという意味ではわかりやすいが、理解できないのが気持ち悪いため、行列式の別の定義も載せる。
行列式の定義
\begin{vmatrix}
A
\end{vmatrix}
= \sum_{\sigma \in S_n} \rm{sgn( \sigma )} a_{1\sigma(1)}a_{2\sigma(2)} \cdots a_{n\sigma(n)}
S_n は n文字の置換の集合。\rm{sgn}(\sigma) は置換の符号を表す。
この定義を用いると、行列式1,2,3の性質がすぐ導ける。
また、講義で触れられていた、
行を入れ替えると符号が変わる性質、
余因子展開についても同様に導ける。
固有値固有ベクトル
正方行列Aに対して
A \vec{x}=\lambda \vec{x}
を満たす
\vec{x} \neq \vec{0}, \lambda
をそれぞれ固有ベクトル、固有値という。
まず
\begin{vmatrix}
A- \lambda I
\end{vmatrix}
= 0
から
\lambda
を計算し、それより連立方程式(解が一意に決まるとは限らない)を解き、固有ベクトルを求める。
固有値分解
固有値がどの二つをとっても異なっている場合についてのみ述べる。
固有値、固有ベクトルをそれぞれ
\lambda_i ,\vec{v_i}
で表す。
対角成分に固有値を並べた対角行列を1
\Lambda =
\begin{pmatrix}
\lambda_{1} & & \\
& \lambda_2 &\\
& & \cdots \\
\end{pmatrix}
固有ベクトルを並べた行列を
V =
\begin{pmatrix}
\vec{v_1} & \vec{v_2} & \cdots
\end{pmatrix}
とする。このとき、
AV = V\Lambda \\
\therefore A = V\Lambda V^{-1}
\therefore A^n = V \Lambda^{n} V^{-1}
とかける。
対角行列はべき乗が容易なため、上記式によりAのべき乗も容易に計算できる。
特異値分解は固有値分解の一般形である。
確率・統計
条件付確率の定義
P(Y=y|X=x) = \frac{P(Y=y \cap X=x)}{P(X=x)}
X=x が成り立っているとき Y=yとなる確率のこと。
ベイズの定理
P(Y=y|X=x)P(X=x) = P(X=x|Y=y)P(Y=y)
条件付確率の定義より明らか。
モンティ・ホール問題や陽性検査のパラドックスなど、面白い応用例も多い。
期待値・分散・共分散
確率論だとあまり見ない気がするが、統計だと
X^2, X^3, X^4
の期待値なども計算することがある。(歪度、尖度など)
分散は平均からのずれの2乗の平均である。
2乗しているのは平均から+のずれと-のずれを同一視したいため。
データのばらつきをみるのに、平均からの距離(平均-データの絶対値)の平均を使うこともある。
共分散は-1から1の間の値をとり、
正の値: 同じ方向へ変化(1に近いほど強い相関
負の値: 反対方向へ変化(-1 に近いほど強い相関
0: 独立
となる。
統計的に重要な分布
離散分布
- ベルヌーイ分布
- 二項分布
- 幾何分布
- 負の二項分布
- ポアソン分布
- 超幾何分布
- 離散一様分布
など
連続分布
- 正規分布
- 指数分布
- ガンマ分布
- ベータ分布
- t分布
- F分布
- カイ2乗分布
- 一様分布
など
推定や検定の手法でよく使う。
情報理論
自己情報量
I(x) = -\log(P(x)) = \log(W(x))
発生確率が低いものを大きくなるように定義されている。
また、独立な事象A,Bに対し、A,Bの両方が起こるという事象の情報量はAの情報量とBの情報量の和になる。
シャノンエントロピー
H(x) = E(I(x)) = - \sum P(x) \log P(x)
自己情報量の期待値。
### カルバック・ライブラー ダイバージェンス
D_{KL}(P||Q) = E_{X \sim P}[log \frac{P(x)}{Q(x)}]
自己情報量の差の期待値とみてよい。同じ事象・確率変数における異なる確率分布の違いを表す。
交差エントロピー
H(P,Q) = H(P) + D_{KL}(P||Q) = -E_{X \sim P} \log Q(x)
カルバック・ライブラー ダイバージェンス の一部分をとりだしたもの。-log Q を P で期待値取っただけ。
-
対角行列とは、対角成分以外の成分がすべて0になる行列のこと。 ↩