LoginSignup
0
3

More than 5 years have passed since last update.

ゆっくりとデータサイエンティスト回りの概念/手法を整理してみようと思う part9

Last updated at Posted at 2017-04-02

※この投稿はシリーズものの一部です。
part8 <-part0->[part10]今月中投稿できるといいな ->故あってpart301になりました

注意1)このエントリは章立てたシリーズの最初の章のエントリとなります。
   これらのエントリは数式を理解する為に絵が多く入っています。
   ただし、当然数式も多く入っている為、あまり耐性のない方は無理をせず閉じていただければと思います。
注意2)最近タイトルと中身が違ってきているので、GWくらいまでに適当なタイトルつけて全部修正します。

1章 記述統計の基本と基本的な確率分布 (平均/分散/標準偏差/共変動と相関/一様分布/ガウス分布 etc…)
2章 推計統計の基本と対応する確率分布 (検定/推定/t分布/χ二乗分布/F分布 etc…)
3章 様々な確率分布 (二項分布/ポアソン分布/負の二項分布/対数正規分布/指数分布/アーラン分布/ガンマ分布 etc…)
4章 確率過程を理解する為の基礎概念 (確率空間/独立性/ルベーグ積分/大数の弱・強法則/フーリエ変換/中心極限定理 etc…)
5章 確率過程入門 (ウィーナー過程/レヴィ過程/ガウス過程/マルコフ過程/MCMC etc…)
6章 確率的最適化入門 (確率過程の入った待ち行列理論 / 確率的最適制御-動的計画法)

それでは始めます。

1章 記述統計の基本と基本的な確率分布
この章の目標は、平均や分散、標準偏差などを3次元までのレベルで絵を記載して理解できるようにするのが目標です。
著者の好みでわけのわからないこだわりが入る場合がありますが、なるべくわかりやすく書いていきたいと思います。

1.1 確率関数と記述統計
この節では、まず確率関数の定義を示し、続けてその定義を基にして、平均や分散、標準偏差や相関を絵にして
説明していきたいと思います。

1.1.1 確率関数(離散-連続)

1.1.2 同時確率(離散)

1.1.3 同時確率(連続)

1.1.4 平均と標本分散と標本標準偏差(離散)

1.1.5 標本分散、母分散と不偏分散

1.16 標準偏差と自由度(離散)、独立変数
さて前回、

標本分散(サンプルの分散)と母分散はどちらも要素数nで割り算をしているが、
標本分散は所詮有限個のサンプルであり、無限個のサンプルを想定している母分散のばらつきよ>り小さくなる。なぜなら、考慮できる要因が有限だから。

と言う数学だか統計学だか哲学だか禅問答だか訳が分からなくなる、抽象的な説明をしました。

その中で、

有限の標本から母分散を推定するには $n$ ではなく $n-1$ で割り算する事が有効だと数学的に証明されている。

そう説明したと思います。その数学的証明は前ページに貼ってあるリンク先に任せます。
今回は、未確認ですがWeb上のいくつかのページには

「Q:なぜ $n-1$ で割っているの?」
「A:自由度が $n-1$ だから、$n-1$ で割るんだよ」

と言う、
やっぱり哲学だか禅問答だか屁理屈だかよく分からない、回答になってない回答があるそうなので、この「自由度」とはなんなのか、「独立変数」と言う概念を踏まえて、説明しておこうかなと。

「さっきの屁理屈みたいなやりとりも、ちゃんと理屈としてはわかるんだよ」と言うところまで、
読んだ方に腑に落ちてもらう事を目指します。

では始めます。

まず、Wikipediaで自由度を引いてみると、

統計学では、各種の統計量に関して自由度を定義している。
大きさ $n$ の標本における観測データ ($x_1, x_2, ..., x_n$) の自由度は $n$ とする。それらから求めた標本平均 $x$ についても同じ。
不偏分散

$ s^2 = \frac{ \sum_{i = 1}^{n} (x_i - \bar{x})^2}{n}$

については、

$ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$

という関係式(ここで $x$ は母集団平均 $\mu$ の推定量である)があるから、
自由度は 1 少ない $n-1$ となる。そのため分母には $n-1$ を用いている。

とあります。
英語のWiki では

A degree of freedom of a physical system is an independent parameter that is necessary to characterize the state of a physical system.
In general, a degree of freedom may be any useful property that is not dependent on other variables.

ざっくり訳すと「自由度とはなんらかの自然界の構造を表現するのに必要な独立したパラメータであり、より一般的には、自由度とは他の変数に依拠しない有用な性質のことである」

とあります。英語の方は訳がわからないですね。

でもまぁ、この二つの文章で自由度についてと、不偏分散の分母が $n-1$ と言うことは説明されてると思います。
キーワードは「他の変数に依拠しない(他の変数に自身の存在を担保させない)」、そして「$\bar{x}$があるから $n-1$ で割る」です。

自由度とは読んで字のごとく「自由さの度合い」。
では「何が自由なのか?」と言うと(統計においては)「標本」です。
では「自由とは何か?」と言うと

(統計においては)「標本の値が自分以外の値によって表現されない自由」

です。
ちなみに、これは僕が文学的(?)にわかりやすく表現したもので、
一般的には「自由に選べる標本の数」です。

でもこれだと意味わからないですよね???

あえて、一般的な表現に習って直感的に丁寧に説明すると、

例えば

「日本人の身長の平均を1,000サンプルくらいで調査したいなー」

と言う時、この1,000はランダムに自由に選べるので、平均を計算するためのサンプルの自由度は1,000です。
では

「日本人の身長の平均は168cmだってわかってるんだけど、その平均からどれくらいばらつきがあるのか調査したいなー」
と言う時、つまり日本人という集団の身長に関して母分散を計算したい時、同じくサンプルを1,000とすると、999人までは自由に選べます。ですが、1,000人目を選ぶにはあるルールが課されます。
そのルールとは

「1,000人目は、すでに選んだ999人と一緒にした時、平均が168cmになる人を選ばなければならない」

理不尽で不自由ですよね?これが自由度の本質で、不偏分散の分母が $n-1$ になる理由です。

つまり、 {$x_1, …, x_1000$} がある時、平均値は

    \bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_i 

になりますが、もしも平均値が先に与えられていたら、

\begin{eqnarray}
 &       \bar{x}    &=& \frac{1}{n} \sum_{i = 1}^{n} x_i \\ 
\Longleftrightarrow &   n \bar{x}   &=& \sum_{i = 1}^{n} x_i \\ 
  &                 &=& (x_1 + x_2 + … + x_{1000}) \\
\Longleftrightarrow &   - x_{1000}  &=& - n \bar{x} + (x_1 + x_2 + …. +x_{999} ) \\ 
\Longleftrightarrow &    x_{1000}   &=&  n \bar{x} - (x_1 + x_2 + …. +x_{999} )  
\end{eqnarray}

と言った形で、最後の式を満たす $x_{1000}$ を選ばなくてはいけません。
単純にサンプルを抽出するだけなら、自由度は$n=1,000$なのですが、

「平均値が与えられた瞬間 $x_{1000}$ は平均値と他の標本の値によって自分が表現されてしまう不自由を感じる」

訳です。
で、このように「他の値によって自分の値の範囲が制限されない状態」を「独立」と言います。
一次独立とか、独立変数とかの独立です。
対義語に「従属」があります。他の値に従属すると、自分が自由に表現できない不自由さを感じるわけです。

さて、直感的に、あくまでも直感的にですよ?
学会の人達の前では絶対に言えない事を、直感的な理解のために説明しますね。
不偏分散の式の中には下記の様に余計な $\bar{x}$ が入っています。

    {\hat{\sigma}}^2 = \frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \bar{x})^2

このため、標本の集合{$x_1, x_2,…, x_{999}, \bf{x_{1000}}$} は不偏分散の式において、
{$x_1, x_2,…, x_{999}, \bf{n \bar{x} - (x_1 + x_2 + …. +x_{999} )}$} とみなされており、
添字は 999、つまり $n-1$ までしか存在せず、「面積の平均=分散」を計算する時は、標本が999個だから $n-1 = 999$ で割る。

という事です。上記は直感的な理解のための説明であり、
ちょっと考えれば詭弁に限りなく近い事がわかるかと思います。
しかしながら、実務の上では数式を弄り回って $n-1$ で割る事を理解するよりは、
こう言った形で「自由度」という概念を理解しておく方が何万倍も有益だと思うので、
今回は詭弁を弄した形になります。
繰り返すと、

「自由度とは、他の値によって代替されない値の総数」
「不偏分散は$n$個目の標本を$\bar{x}と$n-1$個目までの標本で代替できるから自由度$n-1$になる」

です。
次はやっと数章前に予告した「平均はなぜ期待値とも呼ばれるのか」です。
ただし、これには追加で一言条件があります「無限の世界において」です。
ここも、今回と同じ様に、詭弁に近い説明をした後、ちゃんと説明を入れる予定です。

0
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
3