More than 3 years have passed since last update.

機械学習に必要な数学の復習

Ｅ資格

Last updated at 2021-07-10Posted at 2021-07-09

【科目：応用数学】

第１章：線形代数

要点

線形代数とは、数式や幾何学から発展した代数学であり、主に行列を取り扱う。
行列を扱うことで複雑な数式の計算をシンプル化し、図形的にイメージすることが可能となる。
行列を用いた計算の活用例としては、固有値分解及び特異値分解がある。

固有値・固有ベクトル

ある行列Aに対し、以下の関係が成り立つようなベクトル$\overrightarrow{x}$が存在する時、
$$
\large A\overrightarrow{x}=\lambda\overrightarrow{x}
$$
$\lambda$を行列Aの固有値、$\overrightarrow{x}$を行列Aの固有ベクトルという。

固有値分解

ある正方行列Aの固有値を対角に並べた行列を$\Lambda$、固有ベクトル$\overrightarrow{v}$を並べた行列をVとすると、
以下のように表現できる。

\begin{eqnarray}
\Lambda = \left(
\begin{array}{cccc}
\lambda_{ 11 } & 0 & \ldots & 0 \\
0 & \lambda_{ 22 } & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \ldots & \lambda_{ mn }
\end{array}
\right)
\end{eqnarray}

\begin{eqnarray}
V = \left(
\begin{array}{cccc}
\overrightarrow{v}_{1}  & \overrightarrow{v}_{2} & \ldots
\end{array}
\right)
\end{eqnarray}

このとき、
$$
\Large A＝V\Lambda V^{-1}
$$
上記の式のように行列の３つの積の形に分解することを固有値分解という。

特異値分解

正方行列ではない行列Mがあるとき、次の式のように分解することを特異値分解という。
$$
\Large M＝U S V^{-1}
$$
ここで、Uを左特異ベクトル、$V^{-1}$を右特異ベクトルという。
各特異ベクトルの求め方は、$MM^{T}$を固有値分解することで左特異ベクトルと特異値を求めることができ、$M^{T}M$を固有値分解することで右特異ベクトルを求めることができる。

第２章：確率・統計

要点

確率には、発生する頻度を表す「頻度確率」と信念の度合いを表す「ベイズ確率」と呼ばれるものがある。
また、ある事象が与えられたときの確率を「条件付き確率」と言い、お互いに因果関係のない「独立な事象の確率」とは区別される。
条件付き確率には「ベイズ則」を適用することで求めることができる確率がある。

条件付き確率

ある事象X＝xが与えられたという条件のもとで、Y＝yとなる確率を条件付き確率という。
$$
P(Y=y|X=x)=\cfrac{P(Y=y,X=x)}{P(X=x)}　・・・①
$$

ベイズ則

上記の条件付き確率の視点を変えて、Y=yのとき、X=xとなる確率は次の式で表現できる。
$$
P(X=x|Y=y)=\cfrac{P(Y=y,X=x)}{P(Y=y)} 　・・・②
$$
ここで、①と②の同時確率は同じであるので、２式をまとめると以下のベイズ更新式が求められる。
$$
P(Y=y|X=x)=\cfrac{P(X=x|Y=y){P(Y=y)}}{P(X=x)}　
$$

期待値と分散

期待値：ある分布における確率変数の平均値
$$
離散型：\Sigma = P(X=x)f(X=x)　連続型： \int P(X=x)f(X=x)dx
$$
分散：データの散らばり具合
$$
V(X)=E(X^2)-(E(X))^2
$$

確率分布

２項分布とベルヌーイ分布
成功する確率がPのベルヌーイ試行をn回繰り返したとき、その確率分布は次の２項分布で与えられる。
ここで、n＝１のとき、ベルヌーイ分布となる。
$$
P(X=x)={}_nC_x P^{x}(1-P)^{n-x}
$$
正規分布（ガウス分布）
ある確率変数Xが平均$\mu$分散$\sigma^2$に従うとき、次の確率密度関数で表される分布を正規分布という。
$$
f(x)=\cfrac{1}{\sqrt{2\pi\sigma^2}}exp[-\cfrac{(x-\mu)^2}{2\sigma^2}]
$$

第３章：情報理論

要点

自己情報量とは、情報の珍しさを数値で表現したものであり、対数を用いる。
シャノンエントロピーとは、自己情報量の平均（期待値）。
カルバック・ライブラー・ダイバージェンスとは、２種類の確率分布の差異を示す距離の概念。
交差エントロピーとは、ＫＬ情報量のうち、片方の自己情報量をもう一方の分布で平均したもの。

自己情報量とシャノンエントロピー

ある事象が確率Pで生起するとき、情報量は以下で表される。
$$
log_{} \cfrac{1}{P}=-log_{}P　単位：底が２のとき[bit]、eのとき[nat]
$$
情報量の期待値をエントロピーという。
$$
H(X)=-\Sigma (P(X)log_{}P(X))
$$

KLダイバージェンス

カルバックライブラーダイバージェンスとは、２つの確率分布がどの程度似ているかを示す尺度。
$$
KL(p||q)=\int_{-∞}^{∞} p(x)log_{} \cfrac{p(x)}{q(x)}dx
$$
２つの確率分布が同じとき、解は０となる性質を持つ。

交差エントロピー

２つの確率分布をP、Qとするとき、エントロピーとKLダイバージェンスの定義から交差エントロピーは次の式で表せる。
$$
H(P,Q)=-\Sigma p(x)logq(x)=H(P)-KL(p||q)
$$
この交差エントロピーは、交差エントロピー誤差として分類問題における損失関数の計算に用いられることがある。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up