More than 5 years have passed since last update.

ゆっくりとデータサイエンティスト回りの概念/手法を整理してみようと思う part4

Last updated at 2017-03-12Posted at 2017-02-23

1章　記述統計の基本と基本的な確率分布〜1.1 確率関数と記述統計

※この投稿はシリーズものの一部です。
part3 <-[part0](http://qiita.com/yuusei/items/49a63f4402afc66243e6)->part5

注意)このエントリは下記の章立てたシリーズの最初のエントリとなります。
これらのエントリは数式を理解する為に絵が多く入っています。
　　ただし、当然数式も多く入っている為、あまり耐性のない方は無理をせず閉じていただければと思います。

1章　記述統計の基本と基本的な確率分布
(平均/分散/標準偏差/共変動と相関/一様分布/ガウス分布 etc…)
2章　推計統計の基本と対応する確率分布
(検定/推定/t分布/χ二乗分布/F分布 etc…)
3章　様々な確率分布
(二項分布/ポアソン分布/負の二項分布/対数正規分布/指数分布/アーラン分布/ガンマ分布 etc…)
4章　確率過程を理解する為の基礎概念
(確率空間/独立性/ルベーグ積分/大数の弱・強法則/フーリエ変換/中心極限定理 etc…)
5章　確率過程入門
(ウィーナー過程/レヴィ過程/ガウス過程/マルコフ過程/MCMC etc…)
6章　確率的最適化入門
(確率過程の入った待ち行列理論 / 確率的最適制御-動的計画法)

それでは始めます。

1章　記述統計の基本と基本的な確率分布

この章の目標は、平均や分散、標準偏差などを3次元までのレベルで絵を記載して理解できるようにするのが目標です。
著者の好みでわけのわからないこだわりが入る場合がありますが、なるべくわかりやすく書いていきたいと思います。

1.1 確率関数と記述統計

この節では、まず確率関数の定義を示し、続けてその定義を基にして、平均や分散、標準偏差や相関を絵にして
説明していきたいと思います。

1.1.1 確率関数(離散-連続)

離散の世界での確率関数の定義は下記のようになります。

$\forall x \in \mathbb {R}$ なる $x$ に対して、
(翻訳：整数の集合$\mathbb {Z}$ = {$\cdots , -2, -1, 0, 1, 2, \cdots$ } に含まれるどんな$x$を選んでも)
確率関数 ${\rm P}(x)$を下記で定義します。

\begin{eqnarray}
	{\rm P} (x) & \geq &  0 & ,  \\
	\sum_{x \in \mathbb{Z}} {\rm P} (x)& = &  1 & .  
\end{eqnarray}

これが定義で、直感的に絵を描くと、

です。範囲はとりあえず $-4\leq x \leq 4$ 左右対称にしているのは、わかりやすくする以上の意味はありません。
また、連続の世界では確率関数の定義は下記のようになり、
名前が「確率密度関数」に変わります。

$\forall x \in \mathbb {Z}$ なる $x$ に対して、
(翻訳：実数の集合$\mathbb {R}$ = {-$\infty, \cdots , \cdots, +\infty$} に含まれるどんな$x$を選んでも)
確率関数 $p(x)$を下記で定義します。

\begin{eqnarray}
	p(x) & \geq &  0 & ,  \\
	\int_{- \infty}^{\infty} p(x)& = &  1 & .  
\end{eqnarray}

これで絵を描くと

です。範囲はやっぱりとりあえず $-4\leq x \leq 4$ で正規分布で表現しています。

離散と連続で何が違うかと言うことが理解できれば、
記述統計と推計統計がまた違った目で見えてきます。

数式上は色々違いがあるように見えますが、
根本的には**「整数値の集合を対象にする」か「連続値の集合を対象にする」** かの違いだけです。

少しだけ数学語っぽく表現すると、

整数値の集合=個数は無限にあるけど、並べて数えるのできる量だけしかない数の集合
実数値の集合=個数は無限にあるし、並べて数える事もできない量がある数の集合
(※いわゆる可算無限集合か非可算無限集合かって事です)

数えられるか数えられないかの違いなわけですが、
この違いはどこから来るかと言うと、
「ちょちょぎれている」か「切れ目なく繋がっている」かの違いです。
これを「非連続」、「連続」と表現するわけです。

整数は「非連続」であり「数えられます」。
実数は「連続」であり「数えられません」。

自分はこれが記述統計学と推計統計学の違いであると思っています。

記述統計 = 非連続な実世界のデータの特徴を調べる作業
推計統計 = 非連続な実世界のデータを基にして、連続の世界でも同じ傾向が観察されるか調べる作業

これが自分なりの基準になります。
一般的な推計統計は「サンプルの集団から母集団の傾向を調べる道具」と言う認識があるようですが、
自分は「推計統計で母集団と思っているものも実はもっと大きい集合のサンプル集合」であり、
本当の値を推計するなら、数えないくらい多い(つまり連続値で表せる)データが必要になると言う考え方です。

なので、推計統計の特に仮説検定が「母集団が特定の分布に従っているかの検定」をしている観点から、
(手元にあるのは非連続なデータだけど)実際は非連続な世界を扱っていると考えています。

この非連続=離散から連続へ発想がジャンプした時、
第5章に予定している確率過程が扱われる様になります。
ですが、考え方として扱える様になるのと、
数学的な理論として扱える様になるのは天と地ほどの難易度の差があります。

なので、4章でその準備をしますが、
今回と同じく、あまり難しくするのは避けて、
理論を定義や公理から証明すると言うのは専門書に任せ、
絵を描きながら、どうしてその公理が必要なのかなどの背景を説明していければな、
そう思っています。

それでは、この辺で。今回は終わりにします。
次回は　1.1.2 同時確率　を予定しています。
平均や分散が出て来るのは 1.1.3.の予定です。

part5投稿しました->1.1.2 同時確率(離散)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ゆっくりとデータサイエンティスト回りの概念/手法を整理してみようと思う part4

1章 記述統計の基本と基本的な確率分布

1.1 確率関数と記述統計

1.1.1 確率関数(離散-連続)

1章　記述統計の基本と基本的な確率分布