#背景
1,2年生の時に出会いたかったなという初等的な統計学の解説を自分用のメモとしてまとめました。
対象は学部生程度ですが実験屋には何歳になっても必要な、データの統計的分析に必要有用な法則、解釈を列挙していきます。
実験屋がデータを扱う際の手引きなので、数学的厳密さは眼中になく証明は載せません。
随時加筆していきます。
間違いがあればぜひ指摘してください。
#誤差と不確かさ
実験結果につきまとうのは厳密に言うと誤差ではなく不確かさである。
一体なにが違うのかというと、誤差は真値と測定値の差である。
一方不確かさは測定値から求めた推定値の取りうる”ぶれ”である。
つまり誤差は真値の一種であり(誤差と測定値から真値が計算できる)、知りようがない値なのだ。
不確かさとは誤差の推定値であり、実験データから求めることができる。
#誤差の伝播則
実験では知りたい物理量を直接観測できないことがよくあり、その場合は観測可能な物理量から計算によって間接的に求める。
そのような場合の誤差の考え方を誤差の伝播則という。
この段落の最後に具体的な例があるので結果だけ知りたい人は「誤差伝播則の簡単な例」へ
###一般論
以下$x,y$は観測量であり、それぞれ不確かさ$\Delta x,\Delta y$を持つとする。
この$x,y$から非観測量$f(x,y)$を計算するとして$f$の不確かさはどうなるだろうか。
不確かさが$\Delta x$とは、$x$が平均値$\overline{x}$のまわりを$\Delta x$程度の幅で揺れるということである。
$i$回目の測定での$x$の値を$x_i=\overline{x}+\Delta x_i$と表そう。
また同様に$y_j=\overline{y}+\Delta y_j$とする。
このとき$\Delta f_{ij}\equiv f(x_i,y_j) - f(\overline{x},\overline{y})$と置くと、$f$の不確かさの2乗は(つまり$f$の分散は)$\Delta f_{ij}$の2乗の平均である。
式で書くと
(\Delta f)^2 = \sum^n_{i=1}\sum^n_{j=1}\frac{(\Delta f_{ij})^2}{n^2}
となる。
$f$をテイラー展開して$\Delta$の3乗より大きい項を無視すると
\begin{align}
(\Delta f_{ij})^2
&= \Big( f(\overline{x}+ \Delta x_i,\overline{y} + \Delta y_j )
- f(\overline{x},\overline{y}) \Big)^2\\
&= \Big( \frac{\partial f}{\partial x}\Delta x_i
+\frac{\partial f}{\partial y}\Delta y_j + \cdots \Big)^2 \\
&\simeq \Big( \frac{\partial f}{\partial x} \Big)^2 (\Delta x_i )^2 +
\Big( \frac{\partial f}{\partial y} \Big)^2 (\Delta y_j )^2
+ \frac{\partial f}{\partial x} \frac{\partial f}{\partial y}
\Delta x \Delta y
\end{align}
さてここでよく見ると$\Delta x_i \Delta y_j$の平均は$x$と$y$の相関係数である。
$x$と$y$は独立な物理量なので相関係数は0となり、第三項もまた0である。
ということで$f$の不確かさの2乗の表式
\begin{align}
(\Delta f)^2 &= \sum^n_{i=1}\sum^n_{j=1}\frac{(\Delta f_{ij})^2}{n^2} \\
&= \Big( \frac{\partial f}{\partial x} \Big)^2
\sum^n_{i=1}\sum^n_{j=1}\frac{ ( \Delta x_i )^2 }{n^2}
+ \Big( \frac{\partial f}{\partial y} \Big)^2
\sum^n_{i=1}\sum^n_{j=1}\frac{( \Delta y _j)^2}{n^2} \\
&= \Big( \frac{\partial f}{\partial x} \Big)^2 ( \Delta x )^2
+ \Big( \frac{\partial f}{\partial y} \Big)^2 ( \Delta y )^2
\end{align}
が求まる。
###誤差伝播則の簡単な例
前節で得られた結果をもう一度書くと、
\begin{align}
(\Delta f)^2
= \Big( \frac{\partial f}{\partial x} \Big)^2 ( \Delta x )^2
+ \Big( \frac{\partial f}{\partial y} \Big)^2 ( \Delta y )^2
\end{align}
よくある関数形について具体的に計算してみる。
実験ではこれだけ知っておけばほぼOKな気がする。
$a,b$は定数とする。
- $f(x,y)=ax+by$のとき
\Delta f=\sqrt{(a \Delta x)^2+(b \Delta y)^2}
- $f(x,y)=axy$のとき
\frac{\Delta f}{f} = \sqrt{\Big( \frac{\Delta x}{x}\Big)^2
+\Big( \frac{\Delta y}{y}\Big)^2}
- $f(x,y)=ax/y$のとき
\frac{\Delta f}{f} = \sqrt{\Big( \frac{\Delta x}{x}\Big)^2
+\Big( \frac{\Delta y}{y}\Big)^2}
#統計誤差と系統誤差
統計誤差とは統計的なばらつきから生じる誤差。
統計量が増えればどんどん小さくなる。
ランダムなばらつき。
系統誤差とは機械や電子回路の特性による誤差。
統計量をいくら増やしても消えない。
ランダムでなく一定のずれ。
#正規分布
最も基本的な分布。
平均$\mu$と分散$\sigma^2$という2つの数値のみで決定される。
$N(\mu,\sigma^2)$と表記される。
確率密度関数$f(x)$は
f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp \Biggl(-\frac{1}{2}\Bigl(\frac{x-\mu}{\sigma} \Bigr) ^2 \Biggr)
で記述される。
別名ガウシアン(よく使う)、ベルカーブ、normal distribution。
#中心極限定理
ある分布を持つ無限に大きい母集団がある。そこからいくつかのデータを無作為に取って平均するとしよう。これらのデータの集合を標本とよぶ。
この標本の平均値を標本平均、標本内のデータの個数を標本サイズという。(追記 標本数は、標本(データの集合)の数です。参考文献・サイトを参照のこと)
標本はある分布に従って値が変動するのだから、当然その標本平均も毎回ちがう。
標本平均を求める操作を何回も繰り返すと標本平均の分布が求まるはずだ。
これがどのような分布を取るのか考える。
サンプルサイズ$n$が小さいとき標本平均は母集団と似た分布に従う。$n=1$を考えれば母分布そのままである。
しかし$n$が大きくなるにつれ、標本同士の揺らぎが母分布の性質をキャンセルし、その分布は正規分布に近づいてくる。
これが中心極限定理のいわんとすることである。
(目安として$n > 100 $ならば正規分布として近似してよいらしい)
そして標本平均が従うようになる正規分布の平均値は母集団の平均値に等しく(そりゃそうか)、その分散は母分散を標本サイズ$n$で割った値に等しい。
つまりどういうことかというと、ある実験を通して知りたい値(真値)がある。
例えば抵抗にかかっている電圧だとしよう。
電圧は熱雑音なりその他様々な原因によって母平均$\mu$、母分散$\sigma^2$のとある分布(母分布)に従い揺れている。
この分布の平均$\mu$こそが喉から手が出るほど知りたい値(真値)であるが、真値を知るには無限に測定を繰り返さなければならない。
しかして無限回の測定は我々人間のかなわない願いであり、有限回の測定で手を打つより他ない。
かくして$n$回の測定の末、標本平均$\overline{X}$が求まったとしよう。
電圧の揺れはどのような母分布に従っているのかしらなくても、$\overline{X}$は母平均$\mu$、分散$\sigma^2/n$の正規分布に従っていることが中心極限定理からわかる。
つまり$n$を充分大きくとれば$\overline{X}$は$\mu$とほとんど等しくなることが保証されるわけだ。
これなら実験を繰り返して同じ数値をひたすら測定し続ける行為にもモチベーションが生まれるというわけだ。めでたしめでたし。
(真値とどれくらい離れているのかという推定は当然行わなければならず、そこにも正規分布の特徴がもちいられる)
#参考文献・サイト
https://sites.google.com/site/fishermultiplecomparison/samplesize