##個人的メモ
####記述統計
集団の性質を要約し記述する。
####推測統計
集団から一部を取り出し元の集団(母集団)の性質を推測する。
####確率変数
- 事象と結び付けられた数値
- 事象そのものを指すと解釈する場合も多い
####確率分布
- 事象の発生する確率の分布
- 離散値であれば表に示せる
####期待値
- その分布における、確率変数の...平均の値or「ありえそうな」値
E(f)=\sum_{k=1}^nP(X=x_k)f(X=x_k)
E(f)=\int P(X=x)f(X=x)dx
####分散
- データの散らばり具合
- データの各々の値が、期待値からどれだけズレているのか平均したもの
分散Var(f)=
E \bigl(
( f_{(X=x)} - E_{(f)} )^2
\bigr)
=E(f_{(X=x)}^2)-(E_{(f)})^2
###共分散
- 2つのデータ系列の傾向の違い
- 正の値を取れば似た傾向
- 負の値を取れば逆の傾向
- ゼロを取れば関係性に乏しい
共分散Cov(f , g)=
E \bigl(
( f_{(X=x)} - E_{(f)} )
\bigr)
\bigl(
( g_{(Y=y)} - E_{(g)} )
\bigr)
=E(fg)-E(f)E(g)
###分散と標準偏差
- 分散は2乗してしまっているので元のデータと単位が違う
→2乗することの逆演算(つまり平方根を求める)をすれば元の単位に戻る
\sigma=
\sqrt {Var(f)}
=\sqrt{
E \bigl(
( f_{(X=x)} - E_{(f)} )^2
\bigr)}
###ベルヌーイ分布
- コイントスのイメージ
- 裏と表で出る割合が等しくなくても扱える
P(x|\mu)=\mu^x(1-\mu)^{1-x}
###マルチヌーイ(カテゴリカル)分布
- さいころを転がすイメージ
- 各面の出る割合が等しくなくとも扱える
###二項分布
- ベルヌーイ分布の多試行版
P(x|\lambda,n) =\\
\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}
###ガウス分布
- 釣鐘型の連続分布
N(x;\mu,\sigma^2) =
\sqrt \frac{1}{2π\sigma^2}
\exp\Bigl(-\frac{1}{2\sigma^2}(x-\mu)^2\Bigr)
##推定
母集団を特徴づける母数(パラメーター:平均など)を統計的に推測すること。
###推測統計
集団から一部を取り出し元の集団(母集団)の性質を推測する
点推定:平均値などを1つの値に推定すること。
区間推定:平均値などが存在する範囲(区間)を推定すること。
###推定量(estimator)
パラメータを推定するために利用する数値の計算方法や計算式のこと。推定関数とも。
###推定値(estimate)
実際に試行を行った結果から計算した値。
真の値をθとすると・・・
\hat{\theta}
のように表す。
###標本平均
母集団から取り出した標本の平均値
- サンプル数が大きくなれば、母集団の値に近づく→一致性
- サンプル数がいくらであっても、その期待値は母集団の値と同様→不遍性
###標本分散
\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2
一致性は満たすが不遍性は満たさない
###不偏分散
s^2 =\frac{n}{n-1}× \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2 \\
=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline x)^2
##情報科学
- 自己情報量
対数の底が2のとき、単位はビット(bit)
対数の底がネイピアのeのとき、単位は(nat)
I(x) =-\log(P(x))=\log(W(x))
- シャノンエントロピ
微分エントロピーともいうが、微分しているわけではない
自己情報量の期待値
H(x)=E\bigl((I(x)\bigr)
=-E\Bigl(\log\bigl(P(x)\bigr)\Bigr)
=-\sum\Bigl(P(x)\log\bigl(P(x)\bigr)\Bigr)
- カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す
D_{KL}(P||Q)=\mathbb E_{X~P}\Bigl[\log\frac{P(x)}{Q(x)}\Bigr]=\mathbb E_{X~P}\bigl[\log P(x)-\log Q(x)\bigr]
- 交差エントロピー
KLダイバージェンスの一部を取り出したもの
Qについての自己情報量をPの分布で平均している
D_{KL}(P||Q)=\sum_x P(x)\bigl(\log(Q(x))-(\log(P(x))\bigr)
\\
H(P,Q)=H(P)+D_{KL}(P||Q)
\\
H(P,Q)=-\mathbb E_{X~P}\log Q(x)=-\sum_x P(x)\log Q(x)