E資格取得のためラビットチャレンジに挑戦しています。
#応用数学
##1.線形代数:
###行列
行列とはただの数(スカラー)を表にまとめたものでベクトルの変換に使用可能
連立方程式の係数をまとめて表にしたものを行列と呼ぶことができる
連立方程式の解を求める行基本変形は行列の掛け算で表現可能
\left\{
\begin{array}{l}
x_1+4x_2=7 \\
2x_1+6x_2=10
\end{array}
\right.
\left(
\begin{matrix}
1 & 4 \\
2 & 6
\end{matrix}
\right)
\left(
\begin{matrix}
x_1 \\
x_2
\end{matrix}
\right)
=
\left(
\begin{matrix}
7 \\
10
\end{matrix}
\right)
###逆行列
ある行列Aに掛け合わせると単位行列$I$となる行列$A^{-1}$を逆行列と呼ぶ
掃き出し法により求めることが可能
AA^{-1}=A^{-1}A=I
\\
I= \left(
\begin{matrix}
1 & 0 \\
0 & 1
\end{matrix}
\right)
また以下の行列において$ad-bc=0$が成り立つ場合、逆行列は存在しない
\left(
\begin{matrix}
a & b \\
c & d
\end{matrix}
\right)
###固有値・固有ベクトル
ある行列$A$に対して以下のような式が成り立つような特殊なベクトル$\vec{x}$と、右辺の係数(スカラー)$\lambda$がある。
A\vec{x} = \lambda \vec{x}
上記は行列$A$とその特殊なベクトル$\vec{x}$の積は,係数(スカラー)$\lambda$とその特殊なベクトル$\vec{x}$との積と同じ値になることを意味する
この特殊なベクトル$\vec{x}$を行列$A$の固有ベクトルといい、その係数(スカラー)$\lambda$を、行列$A$の固有値という。
###固有値分解
正方行列$A$が固有値$\lambda_1,\lambda_2,$・・・と固有ベクトル$\vec{v}_1,\vec{v}_2$・・・を持ったとする。この固有値を対角線上に並べた行列(それ以外の成分は$0$)
\Lambda =
\left(
\begin{matrix}
\lambda_1 & & \\
& \lambda_2 & \\
& & \ddots
\end{matrix}
\right)
と、それに対応する固有ベクトルを並べた行列
V =
\left(
\begin{matrix}
& & \\
\vec{v}_1 & \vec{v}_2 & \cdots\\
& &
\end{matrix}
\right)
を用意したとき、それらは
AV = V\Lambda
と関係付けられる。したがって
A = V\Lambda V^{-1}
と変形可能である。このように正方行列を3つの行列の積に変換することを固有値分解という。
行列の累乗の計算が容易になる。
###特異値・特異ベクトル
⻑方形にならんだ行列$M$に対して,以下のような式が成り立つような,特殊な単位ベクトル$\vec{v},\vec{u}$と,右辺の係数$\sigma$がある。
M\vec{v} = \sigma\vec{u}
\\
M^T\vec{u} = \sigma\vec{v}
この特殊な単位ベクトル$\vec{v},\vec{u}$を行列$M$に対する特異ベクトルと呼び、
係数$\sigma$を行列$M$に対する,特異ベクトル,特異値という
※$\vec{v}$を右特異ベクトル、$\vec{u}$を左特異ベクトル
###特異値分解
特異値σ1,σ2,・・・,右特異ベクトル𝑣⃑1,𝑣⃑2,・・・,左特異ベクトル𝑢%⃑1,𝑢%⃑2,・・・,を持ったとする。この特異値を対角線上に並べた行列(それ以外の成分は0)
特異値$\sigma_1,\sigma_2,$・・・と特異ベクトル$\vec{v}_1,\vec{v}_2$・・・,$\vec{u}_1,\vec{u}_2$・・・を持ったとする
この特異値を対角線上に並べた行列(それ以外の成分は$0$)
\ S =
\left(
\begin{matrix}
\sigma_1 & & \\
& \sigma_2 & \\
& & \ddots
\end{matrix}
\right)
と、それに対応する特異ベクトルを並べた行列
V =
\left(
\begin{matrix}
& & \\
\vec{v}_1 & \vec{v}_2 & \cdots\\
& &
\end{matrix}
\right)
\\
U=
\left(
\begin{matrix}
& & \\
\vec{u}_1 & \vec{u}_2 & \cdots\\
& &
\end{matrix}
\right)
を用意したとき、それらは
MV = US
\\ M^TU = VS^T
と関係付けられる。したがって
M = USV^{-1}
\\ M^T = VS^TU^{-1}
これらの積は
MM^T = USV^{-1}VS^TU^{-1}
\\ MM^T = USS^TU^{-1}
と変形可能
ここから 行列$M$に対する左特異ベクトル$\vec{u}$と特異値$\sigma$の2乗の算出が可能
固有値は正方行列に限られるが特異行列は$M×N$の長方行列の数値やベクトルの算出が可能。
##2.確率統計:
###条件付き確率
ある事象$X=x$が与えられた下で、$Y=y$となる確率$P$
P(Y=y \mid X=x) =\frac{P(Y=y,X=x)}{P(X=x)}
考え方:$X$が起こったときの $Y$の(条件付き)確率」「条件 $X$ の下での $Y$ の確率」
###独立事象の同時確率
お互いに発生の因果関係がない事象$X=x$,$Y=y$が同時に起きる確率$P$
P(X=x,Y=y) =P(X=x)P(Y=y)= P(Y=y,X=x)
###ベイズ則
事象$X=x$,$Y=y$に対して以下が成り立つ
P(X=x\mid Y=y)P(Y=y) = P(Y=y\mid X=x)P(X=x)
###期待値
ある試行を行ったとき,その結果として得られる数値の平均値
離散的な確率分布が$P(x)$で与えられるとき,確率変数$f(x)$の期待値$E(f)$は
E(f)=\sum_{k=1}^{n} P(X=x_k)f(x=x_k)
連続的な確率分布の場合
E(f)=\int P(X=x_k)f(x=x_k)dx
###分散
各々のデータの値が期待値からどれだけずれているのか平均したもの
偏差(それぞれの数値と平均値(期待値)の差)を2乗する
Var(f) = E
\Bigl(
\bigl(
f_{(X=x)}-E_{(f)}
\bigr)^2
\Bigr)
=E \bigl(f_{(X=x)}\bigr)^2- \bigl(E_{(f)} \bigr)^2
###共分散
2つのデータ系列の傾向の違いを見る。
正なら似た傾向、負なら逆の傾向、ゼロなら関係なし
Cov(f,g) = E
\Bigl(
\bigl(
f_{(X=x)}-E_{(f)}
\bigr)
\bigl(
g_{(Y=y)}-E_{(g)}
\bigr)
\Bigr)
=E(f_{(fg)})- E(f)E(g)
###ベルヌーイ分布
コイントスをイメージ(ただし割合が等しいわけではない)
ベルヌーイ分布は確率変数に$1$か$0$をとり,以下のような特徴を持つ。
確率変数$X=1$
P(X=1)= \mu
確率変数$X=0$
P(X=0)= (1- \mu)
したがって確率変数$X=x$
P(X=x)= \mu^x(1- \mu)^{1-x}
となる。
###二項分布
ベルヌーイ分布の試行を独立でn回行った時の確率分布
P(x\mid \lambda,n) = \frac{n!}{x!(x-n)!}\lambda^x(1-\lambda)^{(n-x)}
###ガウス分布
平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布
正規分布とも呼ばれる
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp
\bigl(
-{\frac{1}{2\sigma^2}}(x-\mu)^2
\bigr)
##3.情報理論:
情報の変化を比率で捉える
\frac{\Delta w}{w}
###自己情報量
情報量とは「ある事象が起きた時にどのくらいめずらしい事象か」という尺度である。
そのため情報量は確率を用いて表すことができる。(めずらしい=確率が低い=情報量が多い)
自己情報量$I(x)$に対する確率分布$P(x)$は
I(x)= -log\bigl(P(x)
\bigr)
となる
###シャノンエントロピー
自己情報量$H(x)$の期待値$E(x)$,平均情報量とも呼ばれる
H(x)=E\bigl(I(x)\bigr)= -E\bigl(log\bigl(P (x)\bigr)
\bigr)= -\sum\bigl(P(x)log\bigl(P (x)\bigr)
\bigr)
###カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
離散分布では$\Sigma$,連続分布は積分$\int$で求める。
D_{KL}(P||Q) =
E_{X\sim P}\begin{bmatrix}
log\frac{P(x)}{Q(x)}
\end{bmatrix}
=
E_{X\sim P}
\begin{bmatrix}
logP(x)-logQ(x)
\end{bmatrix}
###交差エントロピー
PのエントロピーにPのQに対するKL情報量を足したもの
H(P,Q) = H(P) + D_{KL}(P||Q) \\
H(P,Q) = -E_{X\sim P} log(Q(x)