0.はじめに
大学で統計学の講義を受講している者です。
用語や概念をまとめて以下の項目に分類しています。
統計学学習全体像
【統計学】概要
【統計学】度数・偏差・分散
【統計学】係数・回帰
【統計学】集計表
【統計学】集団・標本
【統計学】分布
【統計学】期待値・推定・信頼度
【統計学】統計的検定
1.集計
集計例
-
レディーメード集計
:あらかじめ既成された集計 -
オーダーメード集計
:要望に基づいて加工された集計 -
プリコード
:事前に割り当てた番号、そのままデータ値となる -
アフターコード
:自由回答で得られた回答に対して実査後にコードを割り当てるコード
クロス集計表
2つ以上の質的変数を組み合わせたもの
変数間の関連を表す手法
1次元で表示することも可能だが煩雑になる表となる
度数分布表2つを組み合わせた2次元状にしたような表
変数の表現
行側の変数から表現する
度数frequency
よりある行(i)
ある列(j)
のセル表現をfijと表現
よって1行目2列目の度数はn12と表現する
割合の表現
クロス集計だとそれぞれ値の重みは()カッコ内で割合で表される場合がある
23
や34
など相対度数で表しても理解しにくい場合に便利
図は行間で相対度数を表しているが列関係を主張したい場合は列による相対度数を表記する
連関とは
相関係数を表示した場合の関連性の強さを知りたい
そこで新たに連関係数という指標を用いる
連関があるとは 変数同士異なる関連性があるということ
互いに関係性があること
AとBの指標が同じようなものであれば、連関が無い
-
AとBの指標が互いに反発しているのであれば、連関がある
係数としてオッズ・ファイ係数を学ぶ
多重クロス集計表
質的変数x yに加え第三変数zとしたとき、zを取り扱う分析を行う
zをカテゴリーごとに集計してxとyの関係を導き出すのが目的
zがAのときの集計表A
zがBのときの集計表B
例
クロス集計「性別ごとにケーキを好んで食べる割合」がある
ここでは「性別」「ケーキ」が変数x,yとなっている
新たに「年齢層」ごとに集計したい:変数zを利用する
多重クロス集計により
"10代"年齢層(変数z)が性別ごとにケーキを好んで食べる割合
"20代"年齢層(変数z)が性別ごとにケーキを好んで食べる割合
- このパターンの集計表が必要になる
3変数を主に使う
4変数を扱うのは極めて把握しにくく難しい
多重クロス集計により本来比べてた変数同士が媒介関係となる
性別と事故歴の関係より
男性は女性より事故歴が多い
果たして男性だからか?
走行距離という第三変数を用いてクロス集計及びファイ係数を確かめる
走行距離が長いほど事故歴が多く男性が走行距離が長い
よって本来仮説を立てた性別と事故歴の関係は媒介関係
間に走行距離という変数を挟んだ関係性である