0.はじめに
大学で統計学の講義を受講している者です。
用語や概念をまとめて以下の項目に分類しています。
統計学学習全体像
【統計学】概要
【統計学】度数・偏差・分散
【統計学】係数・回帰
【統計学】集計表
【統計学】集団・標本
【統計学】分布
【統計学】期待値・推定・信頼度
【統計学】統計的検定
1.データ
データにはバラツキが存在する
統計学を利用することでどのようなバラツキがあるのかを視覚化することができる
大きさの比較、中心値の確認などをすることできる
一連の流れから規則性を見いだせることなども可能
バラツキの要因
- 構造的要因:集団の違い→男性か女性か
- 個体的要因:集団の個性→個体差があるか
このような部分によりデータのバラツキが発生する
企業内における統計の活用
品質改良のため
製品開発のための結果を参照する場合
マーケティングリサーチを用いる場合
研究資料の作成など
バラツキを規則性を見出したいため多くの分野で使用されている学問
ニーズが高く情報基盤であるため幅広く利用される
2.推論・推測
確率的な結論や情報を導き出すプロセスが必要
統計学では結論や判断を導き出すことを目指す
主に2種類の推論がある
演繹(えんえき)的推論
演繹とは:
組み立てた理論によって、特殊な課題を説明すること
数学的な証明であり、これまでの定義・原理に基づいて推論を進める推論
理論や法則を仮定しそれに基づき個別的・具体的な事実を認識する
理論や法則を積み上げ関連付けて結論に導く
どのような理論・法則を用いるのかが重要点となる
帰納的推論
帰納とは:
個々の具体的な事柄から、一般的な命題や法則を導き出すこと
これまでに観測された事実に基づいて証明をする
事実である共通点を探しだし結論に導く
合理的なイメージ・・?
統計学は主にこっちであり、統計的推論は帰納的推論である
統計的推測
母集団の特性値を推測すること
母数について推測をする方法のこと
方法としては正規分布や二項分布など特定の型の確率分布に従うことを仮定することが多い
パラメトリックな方法と言われる
統計的検定との違い
3.調査方法
調査は報告義務を有する
調査において、個人情報保護の観点から別の枠組みで法制度が設けられている
説明責任や報告・公開が強く求められている
-
基幹統計調査
国勢統計やそのほか行政が行い作成する統計 -
一般統計調査
国の行政機関が行う調査以外のこと
公的統計の中核をなす調査のため必要性・重要性が高い
4.関係性
参照
相関関係・因果関係の関係性があるか確認する必要がある
相関関係には4つのパターンがある
「食べ物を食べる」「体重が増える」の関係性は
〇「食べるから⇒体重が増える」である
直接の因果関係の逆版
「ダイエット食品」「体重が増える」の関係性は
✖「ダイエット食品を食べるから⇒体重が増える」ではない
〇「体重が増えている人が⇒ダイエット食品を食べる」である
「コウノトリが多い地域は子供の数が多い」
「コウノトリ」と「子供の数」は関係があるかのように見える
しかし郊外に住居すればするほどコウノトリと子供の数は多いしたがって、
〇「コウノトリが多い」⇐「郊外」⇒「子供の数が多い」
「父親の学歴は子供の学歴に関係する」
疑似関係は2つの変数同士と関係があったが、媒介関係は1つの変数と関係があるもの
ここでは新たに「収入が高い」という変数が登場する、したがって
〇「父親の学歴が高い」⇒「収入が高いので塾に通うことができる」⇒「子供の学歴が高い」
疑似関係・媒介関係の見分け方
第三変数の大小によって第一変数・第二変数が関係しているかどうかで判断ができる
例:<媒介関係>~性別(男性/女性)によって走行距離が変動し事故率が関係する~
変数は「性別」「走行距離」「事故率」の3つ
関係性は「性別」⇒①⇒「走行距離」⇒「事故率」
①男性ほど走行距離は長く女性ほど走行距離は短い
「走行距離」⇒「性別」という観点から考えてみると、
走行距離が長いほど男性になり走行距離が短いほど女性という理論はない
よって疑似関係は否定される
例:<媒介関係>~父親の学歴が高いほど収入が高く子供の学歴が高い~
変数は「父親の学歴」「収入」「子供の学歴」の3つ
同様に①「学歴」→「収入」という関係性と②「収入」→「学歴」という関係性を比べてみる
①学歴が高いと収入が高い傾向は理解できるが、②収入が高いと学歴方くなる関係性はない
よって疑似関係は否定、第三変数「収入」は媒介関係であると言える
統計学においての関係性は、最終的に人間が判断するべき部分である
因果関係は4つの条件を満たすものである
Xを第一変数、Yを第二変数としたとき
XとYに相関関係がある
Xが原因でYの結果が生まれる説明ができる
Xが結果でYが原因の逆因果ではない
第三変数Z(疑似関係であるもの・媒介関係であるもの)が存在しない
5.推測統計学
これまで学んだ社会情報処理は記述統計学(2023/10月現在)
記述統計学:元データ(手元にあるデータ)の特性や傾向を探る
-
推測統計学:元データだけではなくその背後の特徴を全体的に傾向推測する技法
今後の学習方針としては、
集団の一部から得たデータを用いて集団全体の特性を推測する
なぜ一部しか測定しないのか
コストと時間がかかりすぎるため
仮に商品の品質検査をする場合全ての商品を取り上げないといけない⇒営業はどうなる?
実際の所は全数調査の方が望ましいところ
標本調査
知りたい対象の一部要素だけを調査する手法
推測統計には標本調査を用いる
標本調査≠全数調査
無作為抽出が大前提
くじ引きのように故意的ではない抽出方法が大前提である
その無作為に抽出したデータを推定や検定していく
標本(サンプル)から母集団(全体)を推測する学問
くじびきなどの無作為抽出より集団の一部を取り全体はどのようなものなのか・・・?
推測をすることが目的とされている
帰納的推論を用いる
これまでの事実に基づき一般化して推論を行うもの
一般的に限られた標本で判断を下さなければならない
そのため帰納的に推論を行い推測を行う
備考
記号
名称 | 記号 |
---|---|
標本平均 | x̄ |
標本分散 | S² |
標本標準偏差 | S |
標本比率 | p |
母平均 | μ |
母分散 | σ² |
母標準偏差 | σ |
母比率 | p |
★Excelデータ分析ツール
リボン>データ>データ分析を押下
分析したいツールを選ぶ
指定範囲を選択することで結果が算出されるので便利
※データ分析の表示が見当たらない場合※
ファイル>オプション>アドイン>設定
ここの分析ツールにチェックを入れる