#はじめに
エンジニア?アナリスト?サイエンティスト?歴5ヶ月めの新卒社員が最近学んだことをちょっとずつまとめてみたもの。気づいたら(またこの書き始めですが)、実はなんと記念すべき10回目、10回目です!ハイパースペシャルデー!ということで、また気持ちを新たにいろんなことを勉強しつつ、書きまとめていきます。やればできる子、いっちーです(^^)
これまでに書いた記事の最新3回分はこちら↓
第7弾
第8弾
第9弾
今日は先日要約統計量についてまとめたので、今度は推測統計の触りの部分をまとめていこうと思います!自分の前勉強してきたことを改めて整理として書いているので、メモ感がえげつないです、お許しを。
推測統計とは?
- 推測統計・・・母集団(研究対象となる集団)から標本をランダムサンプリング(無作為抽出)し、その標本によって得られた要約統計量を使用して、母集団全体を検定し、推測すること。
推測統計が行われる理由
- 考察の対象となる母集団の全体を捉えることが難しく、母集団を構成するすべてからデータを取ることができないため
- 上記が端的な理由だが、わかりづらいため、実際の例を出してみる
- 母集団を構成する標本の総数はわかっているが、そのすべてのデータを集めることが現実的に考えて難しいパターン
- 日本国内では、今Tik Tokが若い世代を中心に流行、社会現象となっているというが、実際使っている人はどのような傾向が見られるか
- 年末に毎年各局で放送されている長時間の音楽番組を見ている人の音楽の好みをより明確にしたい
- とある企業の喫煙者は全体の何%で、その人たちの健康状態について長期的な経過を観察、傾向を調査したい
- そもそも母集団を構成する標本の総数がわかっていない
- 太平洋に生息するマグロの大トロに含有される脂質の量は大西洋と比較して多いのか、少ないのか
- 日本のいちごの品種ごとの糖度と生育環境の違いの因果関係
- 世界の心理学を専攻している人の生活環境内での事象の優先順位のつけ方の傾向
- 母集団を構成する標本の総数はわかっているが、そのすべてのデータを集めることが現実的に考えて難しいパターン
標本抽出理論
- 推測統計の根底にある理論。
- 推測統計の対象になる「標本全体のことについて考えていたら、キリがないじゃん」という結論に対して、ただ**じゃあもう調べるのやめよう?**ではなく、**だったら、その中の何個かのデータをとってそのデータの分析から推測したらわかることもあるんじゃない?**という考え方。
- 標本抽出により、研究対象となる『母集団』と、ランダムサンプリングによって得たデータの集まりである『標本』については区別をする必要がある→下に区別に使用される用語をまとめておく
標本抽出で使用される用語のまとめ
- 母集団・・・調査の対象となる集団の全体のこと
- 個体・・・母集団を構成する要素のひとつひとつ
- 母数・・・母集団におけるデータの特徴や比率などの数値の総称
- 母平均・・・母集団におけるデータの平均(母数のうちのひとつ)
- 母比率・・・母集団におけるデータの比率(母数のうちのひとつ)
- 全数調査・・・母集団を構成するすべての要素からデータを直接とって行う調査→費用・時間・手前の観点から現実的に考えて無理な場合がほとんど
- 標本・・・調査をするために母集団から抽出された個体の集まりのこと
- 標本数・・・標本として選ばれた個体の数
- 標本比率・・・標本から計算された比率
- 標本平均・・・標本から計算された平均
- 標本調査・・・標本に基づいて行われる調査のこと
- 母数がはっきりわからない場合に使用されるもの
- 推定量・・・母数の推定方法
- 推定値・・・推定量から算出された数値(おおよその母数として代用される)→この算出を母数の推定という
標本抽出理論の存在意義
- あくまで推定値は母数とは異なるため、標本調査の結果から、母集団の特徴や性質を無条件に考察できない→標本と母集団について、差が生じているのではという疑問をひとつひとつ潰していく必要が発生する
- 標本と母集団について、差が生じているのではという疑問の例
- 推定値と母数の差の程度
- どの程度の数の標本があれば結果が信頼できるものか→信頼性係数などを使用して算出
- 標本の抽出方法が適切なものか/どう抽出するか
- 分析に使用する推定量が適切か(その場に合わせてカスタムできているか)
- 標本抽出理論は母数の推定値が母集団の性質を正しく伝えていることを保証するためのツールのひとつである
調査に伴う誤差
標本誤差と非標本誤差に大きく分けられる。
標本誤差
- 調査結果の確率的な変動により直接定義される誤差。
- 計算上では、この確率であると算出された結果に対して、実際どの程度ずれていたかを示す誤差。
- 具体例
- 重心がずれることなく真ん中にあり、おもて面と裏面が等しい確率で出るコインを100回投げてみた。
- 計算上は、おもて面が出る確率は1*(50(=100/2)回/100回)=0.5
- 実際は48回おもて面が出た→1*(48回/100回)=0.48・・・実際の確率
- 標本誤差はふたつの差である0.5-0.48=0.02
- 重心がずれることなく真ん中にあり、おもて面と裏面が等しい確率で出るコインを100回投げてみた。
非標本誤差
- 大雑把にいうと「標本誤差以外の誤差」
- 意識的、あるいは無意識的に調査の流れの中で手順を間違えたり、調査中に標本を取り巻く環境などが変化することなどにより発生する誤差。
- 非標本誤差が出ないよう、データをとる際は統制が均質に標本にかかっており、純粋な結果が得られるように工夫する必要がある
感想
データサイエンティストについて勉強をしていく機会を重ねていくにつれて、機械学習だったりデータを有効的に見せるということを意識する大切さを身にしみて感じることが増えてきたので改めて統計について、自分の知識の穴を埋める作業をちょこちょこやっているのですが、教材を臨床心理学を専攻していた大学時代に使用していたものを中心に使っていることもあり、懐かしい気持ち半分、思った以上に直接触っていない時間が長かったことで忘れていることも多くなっていて焦りもしたり。考えさせられる部分が多いです。
が、触っていけば触るほど思い出せたりとか、実際のデータを早く実践の場でいじっていきたいなという気持ちが増えています。この調子で頑張っていこうと再認識しました。
ひととおり学んだことのある分析について知識をまとめたら、タイタニックデータを使った記事も書いてみたいな。Advent Calendarを意識することで勉強の仕方も幅が増えて楽しいです。これだけでも大きな収穫。
また明日も頑張って投稿します٩( ᐛ )و
ではでは