<科目>応用数学
第一章 線形代数
1. 固有値・固有ベクトルの求め方
ある行列A(正方行列)、スカラλ(Aの固有値)、0でないベクトル$\overrightarrow{x}$(Aの固有ベクトル)に対して、以下が成り立つ。
A$\overrightarrow{x}$=λ$\overrightarrow{x}$
計算は、まず、固有値λを求める。
$\overrightarrow{x}$=0ではないので,
det(A−λI)=0とした未知数λの方程式として解いて固有値λを求める.
固有値は全部でn個(nは方程式の次数)ある.
求められた固有値λを元式に代入して,対応する固有ベクトル$\overrightarrow{x}$を求める
2. 固有値分解
ある行列A(正方行列)、スカラλ(Aの固有値)、固有ベクトル$\overrightarrow{v}$
$A=VΛV^{-1}$
ただし、
Λ=\left(
\begin{array}{ccccc}
λ_{11} & \ & & & \\\
& \ddots & & & \\\
& & λ_{ii} & & \\\
& & & \ddots & \\\
& & & & λ_{nn}
\end{array}
\right)
V=($\overrightarrow{v1}$ $\overrightarrow{v2}$ $\dots$) 、$V^{-1}$はVの逆行列。この形を固有値分解という。
この変換によって行列の累乗の計算が容易になる等の利点がある。
3. 特異値分解と特異値・特異ベクトルの概要
特異値分解は、固有値分析に似ているが、固有値分析が正方行列であるのに対して、特異値分解は、正方行列とは限らない。そこが違う点である。
ある行列M(正方行列でなくてよい)、スカラS(Mの固有値)、固有ベクトル$\overrightarrow{u}$のとき、
$MM^T=USS^TU^{-1}$
ただし、 S=\left(
\begin{array}{ccccc}
σ_{11} & & & & \\\
\ & \ddots & & & \\\
& & σ_{ii} & \\\
& & & \ddots \\\
& & & &σ_{nm}
\end{array}
\right)
$U$=($\overrightarrow{u1}$ $\overrightarrow{u2}$ $\dots$) 、※$U^{-1}$はUの逆行列。
同じように、$M^TM$を変形すると、
$M^TM=VS^TSV^{-1}$
ただし、 S=\left(
\begin{array}{ccccc}
σ_{11} & & & & \\\
\ & \ddots & & & \\\
& & σ_{ii} & \\\
& & & \ddots \\\
& & & &σ_{nm}
\end{array}
\right)
$V$=($\overrightarrow{v1}$ $\overrightarrow{v2}$ $\dots$)
これらを使うと、
$$M=USV^{-1}$$
と変形できる。これが、特異値分解である。
Sを特異値とよび、Sに対応する$U$(左側要素)を左特異ベクトルと呼び、$V$(右側要素)を右特異ベクトルと呼ぶ。
第二章 確率・統計
確率は大きく分けて、頻度確率(客観確率)とベイズ確率(主観確率)に大別される。
・頻度確率
発生する頻度•例:「100本のうち10本だけ当たりのクジを引いて当選する確率を調べたところ10%であった」という事実
•ベイズ確率
信念の度合い•例:「あなたは50%の確率で風邪です」という医者の診断
1. 条件付き確率について
ある事象X=xが与えられた下で,Y=yとなる確率
•例:雪の日の条件下で山で野ウサギに遭う確率
$
P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
$
独立な事象の同時発生確率
全く因果関係がない事象X=x,Y=yが同時に起こる確率
•例:雪の日に流れ星が飛んできた確率
$
P(X=x,Y=y)=P(Y=y,X=x)
$
2. ベイズ則の概要
一般的に事象X=xと事象Y=yに対して
$
P(X=x|Y=y){P(Y=y)}
=P(Y=y|X=x){P(X=x)}
$
3. 期待値・分散の求め方
事象X | x1 | x2 | ・・・ | Xn |
---|---|---|---|---|
確率^変数f(x) | f(x_1) | f(x_2) | ・・・ | f(x) |
確率P(x) | P(x_1) | fPx_2) | P(x) |
期待値
$
E(f)=\sum_{k=1}^{n}P(X=x_k)f(X=x_k) \
$
連続の場合、
$
E(f)=\int P(X=x_k)f(X=x_k)dx \
$
分散
あるある確率変数푓(푥)の分散は,
$
Var(f)=
E((f(x)-E(fx)))^2)=E(f(x))^2-E(f(x)^2)
$
4. 様々な確率分布の概要
●ベルヌーイ分布
・コイントスのイメージ~表と裏の割合
$
P(x|μ)=μ^x(1-μ)^{1-x}
$
期待値
$
E(f)=\sum(x・P(X) )
$
分散
$
Var(X)=\sum((x-μ)^2・P(X) )
$
(参考)ベルヌーイ分布とは何か
●マルチヌーイ(カテゴリカル)分布
・サイコロのイメージ~各サイコロ面の出る割合
●二項分布
二項分布(Binomial distribution)は二択の結果(「成功」と「失敗」など)が出る試行を一定数繰り返し、そのうち何回「成功」の結果が得られるかの確率を表す離散型確率分布です。
・ベルヌーイ分布の多施行版
$
P(x|λ,n)=λ^x(1-λ)^{n-x}
$
(参考)二項分布とはなにか?
●ガウス分布
・釣鐘型の連続分布
第三章 情報理論
1. 自己情報量・シャノンエントロピーの定義
確率 p(>0)で起こる事象を観測したときに得られる(自己)情報量を以下の様に定義する。
・微分エントロピーとも言うが微分していない。
・平均情報量(シャノンエントロピーとも呼ばれる)
Point☆
重要度★★★
(自己)情報量 $I(x)=-log(P(x))$ ただしP(x)は確率分布
計算の具体例
例1. 2枚のコインを1回投げすべて表が出た事象の情報量は何bitか
$I(x)=-log(P(x))=-log(\frac{1}{2}×\frac{1}{2})=-log(\frac{1}{2})^2=2$(bit)
例2. 10枚のコインを1回投げすべて表が出た事象の情報量は何bitか
$I(x)=-log(P(x))=-log(\frac{1}{2})^{10}=10$(bit)
上記の例でわかるように、事象が発生する確率が低いほうが情報量が大きい。
・シャノンエントロピー(平均情報量)
平均情報量の期待値
$
H(x)=E(I(x))=-E(log(P(x)))=-\sum(P(x)log(P(x)))
$
2. KL(カルバック・ライブラー)ダイバージェンス
ダイバージェンス
KLダイバージェンス,KL距離とも言われる.
事象・確率変数における異なる確率分布$P,Q$の違いを表す.
同じ確率変数$x$に対して、異なる確率分布$P(x),Q(x)$があるとき、KLダイバージェンスを使って、この分布にどれだけの差があるかを測ることができる。
$
D_{KL}(P||Q)=\sum_{x}p(x)log\frac{P(x)}{Q(x)}
$
3.交差エントロピー
・カルバック・ライブラーダイバージェンスの一部を取り出したもの
・Qについての自己情報量をPの分布で平均している
$
D_KL(P||Q)=-\sum_{x}p(x)log{Q(x)}
$