0.はじめに
大学で統計学の講義を受講している者です。
用語や概念をまとめて以下の項目に分類しています。
統計学学習全体像
【統計学】概要
【統計学】度数・偏差・分散
【統計学】係数・回帰
【統計学】集計表
【統計学】集団・標本
【統計学】分布
【統計学】期待値・推定・信頼度
【統計学】統計的検定
1.母集団
研究対象としている集団全体のこと
母集団の平均値を推定する
2通り考えられる
-
母分散σ²が分かる場合
通常の信頼区間で推定する -
母分散σ²が分からない場合
t分布を行う、母分散が少ない場合は-1を行う
母分散σ²の代わりに標本分散S²を使用する
母集団の母比率を推定する
母比率とは母集団内である事象が起こる確率のこと
例題
視聴率調査を600世帯に行い240世帯が視聴している結果が出た
母比率信頼区間95%を求めよ
A.
計算式
\frac{X}{n} - 1.96 × \sqrt \frac{\frac{X}{n}(1-\frac{X}{n})}{n}\,\,\, ,\,\,\, \frac{X}{n} + 1.96 × \sqrt \frac{\frac{X}{n}(1-\frac{X}{n})}{n}
X = 変数240世帯
n = サイズ600世帯
式に当てはめて計算する
\frac{240}{600} - 1.96 × \sqrt \frac{\frac{240}{600}(1-\frac{240}{600})}{600}\,\,\, ,\,\,\, \frac{240}{600} + 1.96 × \sqrt \frac{\frac{240}{600}(1-\frac{240}{600})}{600}
(0.4 - 1.96 * 0.02\,\,\, , \,\,\, 0.4 + 1.96 * 0.02) = (0.360\,\,\, ,\,\,\, 0.439)
およそ36%,44%となる
2.標本
集団の一部のこと
調査・検査の対象となる集団の一部
どのような一部分を標本として採るかが重要
偏りがある標本の場合、全体を推測するための材料として望ましくない
全体から考慮し偏りのない標本にすることがよいとされる
標本調査
標本の結果から母集団の特性を推測すること
大標本
30以上のn(サンプルサイズ)がある標本のこと
この "30" を境に統計方法が異なる
標本誤差
避けられない不可避のズレ、必ず発生するもの、全体と標本のズレ
無作為抽出することにより特性値が集団全体と一致しないことになる
→抽出したものすべてが同じ特性をもった集団の一部という訳ではないということ
例として日本の有識者全体の内閣支持率
と世論調査
の標本から得られた内閣支持率の差
は起こりうる
標本誤差例
全体母集団5名の平均は168.6とする
しかし標本ごとに4名抜き出して平均を調べると個体ごとによって標本平均が変わる
これが標本誤差
標本統計量
<計算方法>
標本統計量 = 母数 + 標本誤差
標本の特性を示す値のこと
母数と標本誤差を足したもの
標本分布
標本統計量の各値がどのくらいの確率で生じるのかを表したもの
標本分布 ≒ 正規分布
調査対象の数を増やせば標本分布は正規分布と考えてよいということ
正規分布として考えられる、つまり標本を正規分布の知識をもとに評価ができる
標本分散
データのバラツキを表すために用いられる
標本平均
一部の集団(標本)の平均値のこと
母平均や母分散との関係性を整理していく
標本平均の期待値 = 母平均である
E(x) = μ
標本平均の分散 = 母分散/自由度である
標本平均の分散V(x)は母分散σ²をn全体で割ったもの
V(\bar{x}) =\frac{\sigma^2}{n}
標準偏差 (σ) = √分散
分散の平方根が標準偏差
標準偏差の平方根を取ると分散になる
V(\bar{x})の標準偏差 =\frac{\sigma}{\sqrt n}
標本点(ω)
実験において出現可能な結果のこと
小文字ωで表す
標本空間(Ω)
標本点の全体集合
大文字のΩで表す
例:サイコロを2個投げた場合の出目の全体集合
Ω = (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)
= (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6)
= (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)
= (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)
= (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)
= (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)
標本における抽出法
無作為標本抽出法
確率的な手順で抽出する方法
母集団の特性を確率的に基づき推測を行うことができる
クジビキのように、どのクジを引いても同じ確率の状況を作り抽出を行う
しかし偏りが発生しない訳ではない、連続でクジが5回連続当たることもある
単純無作為抽出法
全ての個体に等しい抽選確率を与え、乱数を利用しシンプルに使用する抽出法
しかし規模が大きい場合は番号を提示~乱数~1名選ぶといったようないちいち手間がかかる
欠点として母集団の母数が大きいと名簿など用意するのに困難となる
以下が克服した抽出法
-
系統抽出法
個体を選びそこから等しい間隔間で選び抽出をする -
多段抽出法
市町村、苗字など多段階に分けて個人を抽出する方法 -
層化抽出法
階層に事前に分けて(性別や地域など)抽出を行う
有意抽出法
無作為ではない抽出法
統計的に推定することができない抽出法
手軽に標本を得ることができるが母集団を正確に反映した標本とはならない
目的的抽出法や便宜抽出法がある
-
目的的抽出法
典型的な個体を集める方法 -
便宜抽出法
手軽に集める方法
街頭や施設に通行者に声を掛け調査対象とするインターセプト法
や
知人など固定的な対象者から調査をする機縁法
がある
標本における法則
大数の法則
標本数nが非常に大きい時、標本平均xが母平均μに一致する
サイコロ2個を10回振った場合、1や6が出現する場合が起こる
サイコロ100個を10回振った場合、全て1や6という出現はほぼ起こりえない
→100個全て1や6にはなり得ないため
中心極限定理
標本分布は標本nの大きさが大きくなるほど、平均μ、分散σ²/n の正規分布に従う
平均と分散が分かれば中心極限定理によりどの標本ごとに確率はどの程度出現するのかが分かる
ベルヌーイ試行
以下の条件が3つある検証法のこと
- すべての試行が独立
- 確率Sの起こる割合が一定
- SかF success faiureの二択の結果が伴う
備考
事象と独立
標本空間において事象ごとの特徴がある
名称 | 詳細 |
---|---|
全事象 | 全ての事象 |
空事象 | 何も含まない事象 |
根元事象 | それ以上分割できない根元の事象 |
複合事象 | 複数の標本点を含む事象 |
和事象 | A∪B 事象A,Bがある場合、うち少なくともどちら一方が起こりうる事象 |
余事象 | 事象Aに対してA以外の起こらない事象のこと |
排反事象 | 事象A,Bがある場合、同時に両者起こりえないこと |
独立 | 事象A、事象Bは共に影響を受け合わないということ |