初心者が統計学について学んだことをまとめていく①
今月から統計について学んでいます。
統計学について学んだことを徐々に記載していければと思います。
経緯
機械学習を本格的に勉強し、実務で使い始めて2か月が経ちました。
やっと自分が何を勉強しなければいけないのかが見えてきた頃です。
私の場合、機械学習に関する背景の知識が足りないがため、モヤモヤすることが多々起きています。
このモヤモヤを解消すべく、統計学の基礎を学び、そこからさらに必要な知識を身につけていきたいと思いました。
統計的手法の種類
- 記述統計学
- 統計的推測
今回は統計的推測に的を絞ってまとめていきます。
統計量
データの特徴を一つの数値にしたものです。
具体的に統計量は、下記のことをさしています。
- 平均値
- 分散
- 標準偏差
統計的推測
- 母集団の中から分析に使用するものを選ぶ
- 選んだものを分析
- その母集団について推測を行う
要約すると、部分から全体について推測すること。
知りたいことは、母集団についてである。
この母集団で重要な特性を持つのが、母平均
と母分散
です。
理由は、母集団が正規分布の場合、この2つの値で母集団の大きさを表すことができるためです。
でこの2つを知るために必要なものが、下記。
【部分】 【全体】
標本平均
→ 母平均
標本分散
→ 母分散
ちなみに標本が全体の中の一部分ということで理解しています。
標本の抽出種類
単純無作為抽出法(単純ランダムサンプリング)
母集団の各要素が、標本に含まれる確率を等しくする方法。系統抽出法
母集団に通し番号をつけて、ランダムに一番目の標本を抽出する。
そこから等間隔で(抽出間隔ごとに)標本を抽出する方法。クラスター抽出法(集落抽出法)
母集団をいくつかのクラスター(グループ)に分け、グループの中からランダムに抽出する。
そしてグループに関することをすべて調査する方法。
上記の他にもいろいろな抽出方法がある。
- 層化抽出法
- 二段抽出法
よく統計学で使用される記号
N → 母集団の大きさ
σ → 母分散
μ → 母平均