1.記述統計と推測統計
・集団の性質を要約し記述する。
・集団から一部を取り出し元の集団(母集団)の性質を推測する。
2.確率変数と確率分布
・事象と結び付けられた数値
・事象そのものを指すと解釈する場合も多い
・事象の発生する確率の分布
・離散値であれば表に示せる。
3.期待値
・その分布における確率変数の・・・
平均の値 or 「ありえそう」な値
事象X | x1 | x2 | ・・・ | xn |
---|---|---|---|---|
確率変数f(x) | f(x1) | f(x2) | ・・・ | f(xn) |
確率P(x) | P(x1) | P(x2) | ・・・ | P(xn) |
・公式
期待値 $ E(f) $
$$ E(f) = \sum_{k=1}^n P(X = x_k)f(X = x_k) $$
連続する値の場合
$$ \int P(X = x) f(X = x) dx $$
4.分散と共分散
・データの散らばり具合
・データの各々の値が、期待値からどれだけズレているのか平均したもの
公式
分散 $Var(f)$
\begin{align}
Var(f) &= E\big((\, f_{(X=x)} - E_{(f)}\,)^2 \big) \\
&= E(\,f^2_{(X=x)}\,) - (E_{(f)})^2
\end{align}
・2つのデータ系列の傾向の違い
・正の値をとれば似た傾向
・負の値を取れば逆の傾向
・ゼロを取れば関係性に乏しい
公式 $Cov(f,g)$
\begin{align}
Cov(f,g) &= E\Big(\big(\, f_{(X=x)} - E_{(f)}\big) \big(g_{(Y=y)} - E(g)\,\big)\, \Big) \\
&=E(fg) - E(f)E(g)
\end{align}
分散は2乗してしまっているので、元のデータと単位が違う。
そのため、2乗することの逆演算(平方根を求める)をすれば元の単位に戻る。
・公式
\begin{align}
\sigma &= \sqrt {Var(f)} \\
&= \sqrt {E \big( \, (\, f_{(X=x)} - E_{(f)} \,) \, ^2 \big)}
\end{align}
5.様々な確率分布
・コイントスのイメージ
・裏と表で出る割合が等しくなくとも扱える
$$ P(x \, | \, \mu) = \mu^x \, (1 - \mu)^{1-x} $$
・サイコロを転がすイメージ
・各面の出る割合が等しくなくとも扱える
・ベルヌーイ分布の多試行版
$$ P(x | \lambda ,n) = \frac{n!}{x!(n-x)!} \lambda^x(1-\lambda)^{n-x} $$
・釣鐘型の連続分布
N(x;\mu,\sigma^2)
= \sqrt{\frac{1}{2 \pi \sigma^2}} \exp \big(-\frac{1}{2 \sigma^2}(x-\mu)^2 \big)
6.推定
母集団を特徴づける母数(パラメーター:平均など)を統計学的に推測すること。
・点推定:平均値などを1つの値に推定すること。
・区間推定:平均値などが存在する範囲(区間)を推定すること。
・推定量(estimator):パラメータを推定するために利用する
数値の計算方法や計算式のこと。推定関数とも呼ぶ。
・推定値(estimate):実際に思考を行った結果から計算した値
真の値を$\theta$とすると・・・ $\hat{\theta}$ のように表す
母集団から取り出した標本の平均値
サンプル数が大きくなれば、母集団の値に近づく ⇨ 一致性
サンプル数がいくらであっても、その期待値は母集団の値と同様 ⇨ 不編性
$ E(\hat{\theta}) = \theta $
サンプルサイズをnとすると・・・
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
一致性は満たすが・・・
不偏性は満たさない
↓
不偏分散を使用する
\begin{align}
S^2 &= \frac{n}{n-1} × \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \\
&= \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
\end{align}
7.情報科学
・対数の底が2の時、単位はビット(bit)
・対数の底がネイピアのeの時、単位は(nat)
$$ I(x) = - \log \big( P(x) \big) = \log \big(W(x) \big) $$
・自己情報量の期待値
\begin{align}
H(x) &= E \big( I(x) \big) \\
&= -E \Big( \log \big( P(x) \big) \Big) \\
&= - \sum \Big( P(x) \log \big( P(x) \big) \Big)
\end{align}
・同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
\begin{align}
D_{KL}(P||Q) &=\sum_x P(x) \Big( - \log \big( Q(x) \big) \Big) - \Big( - \log \big( P(x) \big) \Big)\\
&=\sum_x P(x) \log \frac{P(x)}{Q(x)}
\end{align}
・KLダイバージェンスの一部分を取り出したもの
・Qについての自己情報量をPの分布で平均している
\begin{align}
H(P,Q) = H(P) + D_{KL}(P||Q)
H(P,Q) = -\sum P(x) \log Q(x)
\end{align}