機械学習のための確率統計1 #機械学習

　機械学習のためにまずは確率統計からと勉強を始めた際のメモ書きです．
勉強途中ですので，間違いなどがあればどうぞ宜しくお願いします．

はじめに

　統計的推測はモデルを通じて行う，パラメトリックと
モデルを通さずに行う，ノンパラメトリックがある．
　パラメトリックには，期待値に線形な構造をもたせ，誤差の確率分布に正規分布を仮定する正規線形モデルがある．分散分析や回帰分析などの理論は全てこの線形モデルを基礎としているためそれがわかると機械学習に入ることができると信じてる．とりあえず初回だし軽くウォーミングアップがてら，その線形モデルを学ぶために必要な統計的知識を整理していく．
この数学の基礎的な部分を抑えることで，ただ機械学習ライブラリを使うだけではなく，学習データの素性や特性から効率的にアルゴリズムを選択し，出た結果を自分で解析できるようになるはずだと信じて...
とりあえずまずは確率統計の基礎用語から追っていくこととする．

確率の基礎

　まず確率統計に限った話ではないが，数値が連続的か離散的かで扱いが大きく違うためとりあえずそこは注意したい．

確率変数(random variable)

　ある変数のとる値が事前に予知することができず，確率$P$に従って出現するとしたときの値を，確率変数という．つまりセンサや体重を測定して得られた値は確率変数と呼ばれる．名前はこんなのだが測定するたびに違う値のこと．つまり変数．
一般的に大文字の$X,Y,Z$を用いる

離散型（discrete type）と連続型(continuous type)

　サイコロのようにとりうる値が有限個，もしくは,$0,1,2,3...$というように数え上げることができるものを離散型という．
　体重や身長のようにある定められた範囲の特定の実数値をとることが可能な場合のものを連続型という．
　一般的に距離センサや波形のデータは連続型と分類してもよいかと．

累積分布関数(cumlative distribution function) ,分布関数（distribution function）

F(x)=P(X≦x)

$X$が確率変数，$x$が選ばれる確率を意味している．
$X$が身長を表すと仮定すると．この式は，$X$が$x$以下の身長の人が選ばれるとき確率を示していることになる．
　この確率$P$は，$x$に依存して決まる関数であると言え，累積分布関数もしくは，分布関数と呼ぶ．
$ F(x)$は$x$の単調非減少関数である．また$X$は必ず有限の値をとると仮定し

F(∞)=1 , F(-∞)=0

とする．

確率密度関数(probability density function)，密度関数(density function)

　$X$が連続型の確率変数の場合，当然確率分布$F(x)$は$x$に関して微分可能な場合が多い．
　このとき導関数を確率密度関数あるいは密度関数と表す．

F(x)=∫^x _{-∞} f(u)du   \\

F(∞)=∫ ^∞ _{-∞ }f(x)dx=1

である．また区間$[a,b]$の値をとる確率は

P(a<X≦ b)=∫ ^b _a f(u)du\\

となる．

　確率関数(probability function

　$X$が離散型の確率変数の場合には，とりうる値を個々の確率で表現したほうが便利．

x_i,    i=0,1,2,…\\

で定義される関数を確率関数という．

F(X)=Σ_{x_i≦ {_xP_i}}

　となるため$F(x)$は，点$x_i$において$P_i$の高さジャンプするステップ関数となる．

　期待値と分散，共分散

　確率分布について，分布の中心，値のばらつきがわかる指標があると嬉しい．
中心の指標の代表格が期待値である．
　離散的な確率変数に対して，期待値$E(X)$はとりうる値にその確率をかけた加重和で定義する．

E(X)=Σ _{{_iP_i}{x_i}}

一方，ばらつきの指標が分散である．

$μ=E(x)$と置いた時，$V(X)$は

V(X)=E{(X-μ)^2} =Σ _{_iP_i}(x_i-μ )^2

で定義する．$V(X)$は，

V(X)=E(X^2)-{E(X)}^2

とも表現することができる．

　連続型の確率変数にたいしては期待値，分散ともに和が，積分に変わるだけである．

\begin{align}
E(X)&=\int_{-∞ }^{∞ }xf(x)dx \\
V(X)&=\int_{-∞ }^{∞ }(x-μ )^2f(x)dx
\end{align}

確率変数$X_i(i=1,2,3…,n)$の線形和
$$c_1X_1+c_2X_2+… +c_nX_n$$
の期待値と分散に対する公式について考える．また$c_1,c_2,c_3,…,c_n$は定数とする．

\begin{align}
期待値：E(c_1+c_2X_2+… c_nX_n)&=c_1E(X_1)+c_2E(X_2)+… +c_nE(X_n)\\
分散：V(c_1X_1+c_2X_2+… c_nX_n) &= \sum_{i=1}^{n} \sum_{j=1}^{n} c_ic_j Cov(X_i,X_j )
\end{align}

$Cov(X_i,X_j)$は共分散とよばれ2組の対応するデータ間での，平均からの偏差の積の差である．2組の確率変数$X_i,X_j$の共分散は$E$で期待値を表すことにして
$$Cov(X_i,X_j)=E \bigl( (X_i-E(X_i))(X_j-E(X_j)) \bigl) $$
で定義される．

$X_i(i=1,2,… ,n)$が互いに独立の時，
$$Cov(X_i,X_j)=E(X_i-E(X_i))E(X_j-E(X_j))=0 (i \neq j) $$
となるので，
$$V(c_1X_1+c_2X_2+… c_nX_n) =c_{1}^{2}V(X_1)+c_{2}^{2}V(X_2)+… +c_{n}^{2}V(X_n)$$
となる．