※こちらの記事は"Pythonで学ぶあたらしい統計学の教科書"に基づいて、統計学初学者が頭の整理とアウトプットを目的に掲載している記事です。本の内容のみならず、自分で調べた内容、自分のイメージにマッチした内容を追記している場合もあります。
※今回含めて3回ほどはPythonを使用しません。
基本的な統計量
データを集計した値のことを、統計量と呼びます。
標本が得られたら、母集団を推定したい!!! とはすぐに行かず、まずは標本の特徴を分析する必要があります。
特徴を見る方法としては、2つの方法があります。
- 統計量を計算する
- 図示する
この内、統計量を見ていきます。
平均値
与えられたデータの総和を、データの個数で割ると算出されます。
$$ \bar{X} = \frac{X_1 + X_2 +・・・・+ X_n}{n} $$
ちなみに、この平均値は相加平均といいます。
その他の平均値については下記リンクに詳細に記載されています。
期待値
統計学においては、平均値のことをしばしば期待値とも呼ばれます。期待値は$\mu$で表されることが多いです。
1回の試行で得られる"全ての結果"と"その結果に対する確率"をかけ合わせて算出されます。
期待値は「未知のデータであっても適用できる平均値」という捉え方ができます。
結果が$n$個あるとして期待値を数式で表すと下記のようになります。$P_k$は確率、$X_k$は結果です。
$$ \mu = \sum_{k=1}^nP_kX_k $$
分散
得られたデータが、平均値(期待値)とどれだけ離れているかを表した指標です。
分散という名前からも想像できるように、平均値からの"ちらばり具合"なわけです。
つまり、確率変数の分布が平均値に対してどの程度散らばっているか、ということになります。
分散は下記の式で表されます。
$$ \sigma^2 = \frac{1}{n}\sum_{k=1}^n(X_k - \bar{X})^2 $$
コメント
分散ってどういう意味があるんでしょう。
色々考えてみましたが、やはり本質を理解できるのはかなり先のことかもしれない・・・
その他参考サイト
統計学における分散と不偏分散 - to-kei.net
【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita