More than 5 years have passed since last update.

ゆっくりとデータサイエンティスト回りの概念/手法を整理してみようと思う part8

Last updated at 2017-04-02Posted at 2017-03-25

※この投稿はシリーズものの一部です。
part7 <-[part0](http://qiita.com/yuusei/items/49a63f4402afc66243e6)->part9

注意)このエントリは下記の章立てたシリーズの最初の章のエントリとなります。
これらのエントリは数式を理解する為に絵が多く入っています。
　　ただし、当然数式も多く入っている為、あまり耐性のない方は無理をせず閉じていただければと思います。

1章　記述統計の基本と基本的な確率分布
この章の目標は、平均や分散、標準偏差などを3次元までのレベルで絵を記載して理解できるようにするのが目標です。
著者の好みでわけのわからないこだわりが入る場合がありますが、なるべくわかりやすく書いていきたいと思います。

1.1 確率関数と記述統計
この節では、まず確率関数の定義を示し、続けてその定義を基にして、平均や分散、標準偏差や相関を絵にして
説明していきたいと思います。

1.1.1 確率関数(離散-連続)
該当エントリ

1.1.2 同時確率(離散)
該当エントリ

1.1.3 同時確率(連続)
該当エントリ

1.1.4 平均と標本分散と標本標準偏差(離散)
該当エントリ

1.1.5 標本分散と不偏分散と母分散

このエントリでは、前回のエントリで説明しきれなかった、
離散世界の中でもサンプルの世界と真の値を繋ぐ道具「不偏分散」について説明します。
ここで不偏分散について、説明して、次回、自由度と言う概念を説明したいと思います。
前回標準偏差と自由度までやると言っていたんですが、結局時間がなくてここまでになっています・・・

まず、離散の世界でよく使われる分散は三つあります。
「標本分散$(s^2)$」と「不偏分散${\hat{\sigma}}^2$」と「母分散${\sigma}^2$」です。

\begin{eqnarray}
	s^2 &=& \frac{1}{n} \sum_{I = 1}^{n} (x_i - \bar{x})^2  \\
	{\hat{\sigma}}^2 &=& \frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \bar{x})^2　\\
	{\sigma}^2 &=& \frac{1}{n} \sum_{I = 1}^{n} (x_i - \mu)^2
\end{eqnarray}

上が標本分散で、下が母分散。
で、真ん中が不偏分散。
※$\mu$は母集団の平均です。

ぱっと見の印象でどうでしょう？
ネタを知っているからですが、僕には標本分散と母分散が同じ形に見えていて、
不偏分散だけが (n-1)で割ってるから、
他の二つよりも数字が大きく出そうだな、これが仲間外れっぽいなと思ったりするわけです。
実は、それは数式の見方としては正しく、現実の見方としては誤りです。

ここに離散の世界におけるサンプリングの罠が隠れています。

その罠とは「現実世界で手に入れたデータから計算した標本分散は、どんなに大きい数だろうと、真の分散よりも小さくなる（※統計ではこの真の分散の事を母分散と言います）」です。

カンのいい人は分かったと思いますが、なかなか分かり辛いと思うので、追加の説明をします。

最初の３つの式で、僕は「標本分散と母分散は似てる」「不偏分散だけ仲間外れで、計算結果が大きくなりそうだ」と言いました。

ですが、サンプリングの罠に従うと「標本分散と母分散は違う。標本分散の方が小さい」となるわけです。

はてな？同じ式に見えるのになぁ？ですね。

なんでそうなるのか直感的な説明をする前に「じゃあ、サンプリングしても母分散は求められないのか？」と言う疑問が湧きますよね。これに答えます。

「サンプルの結果から母分散は求められます。それが不偏分散です」

どうしても小さくなりがち（小さく偏りがち）なサンプルの標本分散に代わって、母分散に対し偏りのない式が欲しい。

その要望を満たすのが不偏分散になるわけです。不偏分散が理論的に母分散としてつかえると言う話は、例えばこことかで説明していますので、そちらを参照して下さい。

さて、話を戻して、何故標本分散が母分散より小さくなるかの話です。

これなんですが、正直言ってここの「観測データの構造」の図よりもわかりやすい図が書けなかったので、図の説明はそちらを見てください。実は一つ前のエントリの図はこのサイトからインスパイアされています。
ここでは、図ではなく言葉で説明しますね。

\begin{eqnarray}
サンプルのばらつき &=&  \frac{1}{n} \sum_{i = 1}^{n} (x_i - \bar{x})^2 \\
真のばらつき &=& \lim_{n \to \infty} \frac{1}{n}\sum_{i = 1}^{n} (x_i - \bar{x})^2
\end{eqnarray}

です。(※数式はイメージです)

雑ですかね？要は、

サンプルのばらつきではカバーできないくらい真のばらつきに影響を与える変数は多い。
つまり、真のばらつきはサンプルで考慮できている範囲の外で「更にばらつく」。
よって、サンプルは限られた範囲しか考慮できていないので、真のばらつきよりも「ばらつきが小さくなる」。

というわけです。
この辺に入ってくると分散分析などの世界に片足突っ込んでます。
その辺を実務でやった事はあるので、いつか話ができるといいなとは思っています。

また、有限と無限の話も絡んできて、大数の法則とか中心極限定理とかも絡んでくるんですが、
そのあたりの話は、だいぶ先の方になると思います。
まずは、足元の部分をどうにか終わらせなくては・・・
次は標準偏差と自由度の話。変数の独立って何？です。

来月の頭は忙しいので、中旬になってしまうかもしれませんが、のんびりお待ちください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up