#第1章:線形代数
##行列
- スカラーを表にしたもの
- ベクトルの変換や連立方程式を解く際に用いる
##行の基本変形
- i行目をc倍する
- s行目にt行目のc倍を加える
- p行目とq行目を入れ替える
##連立1次方程式の解き方
- 係数部分と変数部分、解部分に分けた3つの行列で表す
- 係数部分の行列を行の基本変形を用いて単位行列に持っていく
- 係数部分に行の基本変形を適用した際には解部分にも同様の変形を適用する
##逆行列
正方行列$A$との席が単位行列$E$となる行列
$A^{-1}$と表す
$$AA^{-1} = A^{-1}A = E$$
##行列式
det \left(
\begin{matrix}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{matrix}
\right)
= a_{11}a_{22} - a_{12}a_{21} \\
\\
det \left(
\begin{matrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
a_{31} & a_{32} & a_{33}
\end{matrix}
\right)
= a_{11}a_{22}a_{33} + a_{12}a_{23}a_{31} + a_{13}a_{21}a_{32} \\
\hspace{95pt} - a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33} - a_{13}a_{22}a_{31}
行列式 $|A| \neq 0$ のとき逆行列が存在する
##固有値と固有ベクトル
$$A \vec{x} = \lambda \vec{x}$$
このような式が成り立つ時 $\lambda$を固有値、$\vec{x}$を固有ベクトルという
##固有値分解
固有値 $\lambda_1, \lambda_2, \cdots, \lambda_n$と固有ベクトル $\vec{v}_1, \vec{v}_2, \cdots, \vec{v}_n$ を持ち、固有値を対角線上に並べた(それ以外の成分は0の)正方行列を $A$ とする
{\Lambda=\left(
\begin{array}{cccc}
\lambda_{1} & & & \\
& \lambda_{2} & & \\
& &\ddots & \\
& & & \lambda_{n}
\end{array}
\right)
}
$A$ に対応する固有ベクトルを並べた行列を $V$ とする
{V=\left(
\begin{array}{cccc}
\vec{v}_{1} & \vec{v}_{2} & \cdots & \vec{v}_{n}
\end{array}
\right)
}
この時、
AV = VA \\
A = VAV^{-1}
##特異値分解
固有値分解は正方行列でしかできないが、正方行列でない行列に対して似たような分解を行うことができる
##確率
- 頻度確率(客観確率)
- ベイズ確率(主観確率)
P(A)=\frac{n(A)}{n(U)}=\frac{事象Aが起こる数}{すべての事象数}\\
0\leq P(A) \leq 1
##条件付き確率
ある事象 $B$ が与えられたもとで $A$ となる確率
$$P(A | B)=\frac{P(A\cap B)}{P(B)}$$
##独立な事象の同時確率
お互いの発生には因果関係のない事象 $A$ と事象 $B$ が同時に発生する確率
$$P(A\cap B) = P(A)P(B|A) = P(A)P(B)$$
##ベイズ則(ベイズの定理)
P(A)P(B|A)=P(B)P(A|B) \\
P(B|A)=\frac{P(B)P(A|B)}{P(A)} \\
\frac{P(B\cap A)}{P(A)} = \frac{P(A\cap B)}{P(A)}
##期待値
その分布における確率を考慮した平均値
離散的な分布の期待値
$$E(x) = \sum_{k=1}^{n}x_kP(x_k)$$
連続的な分布の期待値
$$E(x) = \int xP(x)dx$$
##分散
データの散らばり具合
$$Var(x) = E((x-E(x))^2) = E(x^2)-(E(x))^2$$
##共分散
2つのデータ系列の傾向の違い
- 正の値を取れば似た傾向
- 負の値を取れば逆の傾向
- 0に近いほど関係性に乏しく、$|1|$に近いほど関係性が強い
$$Cov(x, y) = E((x-(E(x))(y-(E(y))) = E(xy)-E(x)E(y)$$
##ベルヌーイ分布
- コイントス
$$P(x|\mu) = \mu^x(1-\mu)^{1-x}$$
##マルチヌーイ(カテゴリカル)分布
- サイコロを転がす
##二項分布
- ベルヌーイ分布の多試行版
$$P(x|\lambda, n)=\frac{n!}{x!(n-x)!} \lambda^x(1-\lambda)^{n-x}$$
##ガウス分布
釣鐘型の連続分布
$$f(x)=\frac{1}{\sqrt{2\pi\sigma}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
##自己情報量
$P(x)$の確率で起きる事象$x$の自己情報量
$$I(x)=-\log_2P(x)$$
##シャノンエントロピー
自己情報量の期待値
情報を送る際に必要なビット数の平均の下限
$$H(x) = E(I(x)) = -E(\log_2P(x))) = -\sum(P(x)\log_2P(x)))$$
カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P, Qの違いを表す
離散確率分布$P$の$Q$に対するカルバック・ライブラー情報量
D_{KL}(P||Q) = \sum_{x}p(x)log_{2}\frac{p(x)}{q(x)} = \sum_{x}p(x)(log_{2}p(x) - log_{2}q(x))
連続確率分布では積分する
##交差エントロピー
- カルバック・ライブラー ダイバージェンスの一部分を取り出したもの
- $Q$についての自己情報量を$P$の分布で平均している
$$H(P, Q)=H(P)+D_{KL}(P||Q)=-\sum_{i}P(x_i)log_2(Q(x_i))$$
$Q$の分布に最適化されたコードで$P$の分布の確率変数の情報を送ってしまった際に必要なビット数の平均の下限
機械学習の損失関数に用いられる