ラビットチャレンジ提出レポート
1.線形代数
スカラー、ベクトル、行列とは
- スカラー
- いわゆる普通の数
- +-×÷の演算が可能
- ベクトルに対する係数になれる
- ベクトル
- 「大きさ」と「向き」を持つ
- 矢印で図示される
- スカラーのセットで表示される
- 行列
- スカラーを表にしたもの
- ベクトルを並べたもの
単位行列と逆行列
- 単位行列
ある行列Aに対して $ AI = IA = A$ が成立する
I = \begin{pmatrix}
1 & 0 \\
0 & 1
\end{pmatrix}
- 逆行列
- 行列の「逆数」のようなもの
- ある行列とその逆行列をかけると単位行列となる- 掃きだし法で求めることが可能
$A$の逆行列を$ A^{-1}$と表す。(Aのインバースと読む)
AA^{-1} = A^{-1}A = I$
[補足]: 2*2行列の場合は以下のような方法でも取得できる
A = \begin{pmatrix}
a & b \\
c & d
\end{pmatrix} の場合 \\
\\
A^{-1} = \frac{1}{ad - bc}\begin{pmatrix}
d & -b \\
-c & a
\end{pmatrix}
- 行列式
- ある行列2つの横ベクトルの組み合わせで作られる平行四辺形の面積
- 0以外の場合、逆行列があると考える事が出来る
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix} = ad - bc
固有値・固有ベクトル
ある行列Aに対して以下の式が成り立つような特殊なベクトルxと係数λがある。
それぞれ行列Aに対する固有ベクトル、固有値という
A\vec{x} = λ\vec{x}
例
\begin{pmatrix}
1 & 4 \\
2 & 3
\end{pmatrix} \begin{pmatrix}
1 \\
1
\end{pmatrix} = \begin{pmatrix}
5 \\
5
\end{pmatrix} = 5 \begin{pmatrix}
1 \\
1
\end{pmatrix} \\
この場合、固有値:λ=5 \\
固有ベクトル:x = \begin{pmatrix}
1 \\
1
\end{pmatrix}
固有値分解
ある正方行列$A$が固有値$λ1,λ2...$と固有ベクトル$\vec{v1},\vec{v2}...$を持つとする。
固有値を対策線上に並べた行列$Λ$と固有ベクトルを並べた行列$V$を用意する
Λ = \begin{pmatrix}
λ1 & & \\
& λ2 & \\
& & …
\end{pmatrix}
V = \begin{pmatrix}
\vec{v1} & \vec{v2} & ...
\end{pmatrix}
この時それらの関係は以下のように表すことができ、これを固有値分解という
AV = VΛ \\
A = VΛV^{-1}
特異値分解
以下の条件を満たす特殊な単位ベクトルがあるならば特異値分解ができる
M\vec{v} = σ\vec{u} \quad M^{T}\vec{u} = σ\vec{v} \\
M = USV^{T} \quad M^{T} = VS^{T}U^{-1} \\
そして積は以下のようになり、これを固有値分解することで、左特異ベクトルと特異値の二乗が求められることがわかる
MM^{T} = USV^{-1}VS^{T}U^{-1} = USS^{T}U^{-1}
2.確率・統計
集合とは何か?
- ものの集まり
- 確率・統計に登場する「事象」は「集合」として取り扱うことができる
- 「集合」の「要素」同士は明確に区別できる
和集合と共通部分
A \cap B \quad AとBの和集合 (AかBに含む) \\
A \cup B \quad AとBの共通部分 (AとB双方に含む)
確率
-
頻度確率
- 発生する頻度
- (例)「10本のうち1本だけ当たりのクジを引いて当選する確率を調べた所10%であった」という事実
-
ベイズ確率(主観確率)
- 信念の度合い
- (例)「あなたは40%の確率でインフルエンザです」という診断
確率の定義
P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数}
条件付き確率
ある事象Bが与えられた下で、Aとなる確率は以下のように表す
P(A|B) = \frac{P(A \cap B)}{P(B)} \\
\quad \quad = \frac{n(A \cap B)}{n(B)}
独自な事象の同時確率
お互いの発生には因果関係の無い事象AとBが同時に発生する確率
P(A \cap B) = P(A)P(B|A) \\
\quad = P(A)P(B)
また、AかBの何れかが発生する確率も以下のように表すことができる
P(A \cup B) = P(A) + P(B) - P(A \cap B)
ベイズ則
事象Aが起きる条件下でk種類の事象B(B1,B2,...Bk)が起こるとき、事象Biが起こる条件付き確率は以下のようになる
P(B_i|A) = \frac{P(A \cap B_i)}{P(A)} \\
\quad = \frac{P(B_i)P(A|B_i)}{P(A \cap B_1) + P(A \cap B_2) + ... P(A \cap B_k)} \\
\quad = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{k}P(B_j)P(A|B_j)}
統計
- 記述統計
- 集団の性質を要約し記述する
- 推測統計
- 集団から一部を取り出し、元の集団の性質を推測する
確率変数と確率分布
- 確率変数
- 事象と結びつけられた数値
- 事象そのものを指すと解釈する場合も多い
- 確率分布
- 事象の発生する確率の分布
- 離散値であれば表に示せる
期待値
- その分布における、確率変数の
平均の値 or 「ありえそう」な値
事象$X_n$に対して確率変数を$f(x_n)$,確率を$P(x_n)$と表すと、
期待値E(f) = \sum_{K=1}^{n} P(X=x_k)f(X=x_k) \\
\quad = \int P(X=x)f(X=x)dx
分散と共分散
- 分散
- データの散らばり具合
- データの各々の値が、期待値がらどれだけズレているのか平均したもの
分散Var(f) = E((f(X=x) - E(f))^2) \\
\quad = E(f^2(X=x)) - (E(f))^2
- 共分散
- 2つのデータ系列の傾向の違い
- 正の値を取れば似た傾向、負の値をとれば逆の傾向
- ゼロの場合は関係者に乏しい
共分散Cov(f,g) = E((f(X=x) -E(f))(g(Y=y) - E(g))) \\
\quad = E(fg) - E(f)E(g)
標準偏差
分散は2乗してしまっているので元のデータと単位が違う
平方根を求める事でもとの単位に戻る
ベルヌーイ分布
- コイントスのイメージ(xに0か1が入る)
- 裏と表で出る割合が等しくなると扱える
確率関数P(x|μ) = μ^{x}(1-μ)^{1-x} \\
期待値E(X) = p
分散V(X) = μ(1-μ)
マルチヌーイ分布
- さいころを転がすイメージ
- 各面の出る割合が等しくなるともいえる
f(k) = \frac{n!}{x_1!x_2!...x_k!}P_1^{x1}P_2^{x2}...Pk^{xk} \\
E(X_i) = nP_i \\
V(X_i) = nP_i(1-P_i)
二項定理
- ベルヌーイ分布の多試行版
P(x|Λ,n) = \frac{n!}{x!)(n-x)!}Λ^{x}(1-Λ)^{n-x} \\
E(X) = nΛ \\
V(x) = nΛ(1-Λ)
ガウス分布
釣鐘型の連続分布
N(x;μ,σ^{2}) = \sqrt{\frac{1}{2πσ^{2}}}exp(-\frac{1}{2σ^{2}}(x-μ)^{2}) \\
E(x) = μ \\
V(x) = σ^{2}
推定
母集団を特徴づける母数(パラメータ:平均など)を統計学的に推測すること
- 点推定
- 平均値などを1つの値に推定すること
- 区間推定
- 平均値などが存在する範囲(区間)を推定すること
推定量
-
推定量(estimator)
- パラメータを推定するために利用する数値の計算方法や計算式のこと
-
推定値(estimate)
- 実際に施行を行った結果から計算した値
真の値を$\theta$とすると、$\hat{\theta }$と表す
標本平均
- 一致性
- サンプル数が大きくなれば母集団の値に近づく
- 不偏性
- サンプル数がいくらであっても期待値は母集団の値と同様
- $E(\hat{\theta}) = \theta $
標本分散
サンプルサイズをnとすると
\hat{σ^{2}} = \frac{1}{n}\sum_{i=1}^{n}(x_i - x)^{2}
- 一致条件は満たすが、不編性は満たされない
- 不偏分散を用いることで標本分散を修正できる
不偏分散
- 母集団に比べ標本数が少ない場合は、標本分散が母分散よりも小さくなる
- 標本分散が母分散に等しくなるように補正したものを不偏分散と呼ぶ
s^{2} = \frac{n}{n-1} × \frac{1}{n}\sum_{i=1}^{n}(x_i - x)^{2}
3.情報理論
自己情報量
- 対数の底が2のとき、単位はbit
- 対数の底がネイピアのeのとき、単位はnat
l(x) = -log(P(x)) = log(W(x))
シャノンエントロピ
- 微分エントロピーとも呼ぶ
- 自己情報量の期待値
H(x) = E(I(x)) \\
\quad = -E(log(P(x))) \\
\quad = -\sum_{}(P(x)log)P(x)))
カルバック・ライブラー ダイバージェンス
- 同じ事象・確率変数における異なる確率分布P,Qの違いを表す
- 距離のようなもの
- ただし$D_{KL}(P||Q)$と$D_{KL}(Q||P)$では意味が異なる
D_{KL}(P||Q) = E_{x~P}[log\frac{P(x)}{Q(x)}] \\
\quad = E_{x~P}[logP(x) - logQ(x)] \\
これらを用いると
I(Q(x)) - I(P(x)) \\
\quad = (-log(Q(x))) - (-log(P(x))) = log\frac{P(x)}{Q(x)} \\
E(f(x)) = \sum_{x}P(x)f(x)
最終的に以下のような形に変換できる
D_{KL}(P||Q) = \sum{}P(x)log\frac{P(x)}{Q(x)}
交差エントロピー
- KLダイバージェンスの一部分を取り出したもの
- Qについての自己情報量をPの分布で平均している
H(P,Q) = H(P) + D_{KL}(P||Q) \\
\quad \quad = -\sum_{x}P(x)logQ(x)