はじめに
エンジニア?アナリスト?サイエンティスト?歴5ヶ月めの新卒社員が最近学んだことをちょっとずつまとめてみたもの。実は、今日、Advent Calendarがついに10日目です、わーい!!
ここまで、道のりが長かった!!!と、手放しに喜びたいところなんですが、帰って寝落ちをしてしまい、せっかく書いたのに投稿そのものは11日目なんです、がーん
肝心なところでハズしてしまう癖がこんなところにあらわれちゃうのがちょっと悔しいですが、投稿します(.・v・)ノ<今日は統計関係です)
ちなみに、これまでに書いた記事の最新3回分はこちら↓
第11弾
第12弾
第13弾
標本抽出の方法
- 標本抽出の方法は主に無作為抽出法と有意抽出法の2種類に分類できる
無作為抽出法
- 無作為抽出法・・・母集団を構成するもの(データや人など)が等しく選ばれるように標本を抽出する方法。
- メリット
- 無作為抽出の利用によって、標本誤差の影響が推定可能
- デメリット
- 非標本誤差の影響を推定することが困難→誤差を厳密に評価できるわけではない
- 標本抽出に手間がかかる
- 想定できる母集団によっては、原理的に無作為抽出ができない可能性が孕んでいる
無作為抽出の種類
単純無作為抽出法
- データ全体が入っている台帳から、乱数を使ってランダムに標本を抽出する方法
- メリット
- 理論的に単純のため、精度や誤差の評価が容易
- デメリット
- 母集団を見るリストが必要
- 標本の抽出に手間がかかる→母集団が大きい場合には実施がほとんど不可能に、母集団が小さいときに有効
系統抽出法
- 1からNまで通し番号のついた名簿がある際、大きさnの無作為標本を作る方法
- 1からHまでの数字の中から無作為に数字を選択、最初の要素だけを乱数などで抽出したあと、等間隔で順番に(系統的に)抽出する(→等間隔抽出法)。
- メリット
- 確率的な抽出は1回で済むので、抽出作業が大幅に軽減
- デメリット
- 母集団を見るリストが必要
- データの台帳の中に偏りがあると、抽出も偏る可能性が孕んでいるので注意が必要
集落抽出法
- 全体の縮図になっている集落(クラスター)を抽出、ランダムに抽出された集落のすべての要素を標本とする方法。
- フィールドワークのような調査に向いている
層別抽出法
- 母集団の属性(性別、職業など)の構成比率の予備知識を使って母集団を層化して抽出する方法。
- 層化・・・相互排他的な層を等質性を見て要素で構成させること
- メリット
- 各層ごとでの無作為抽出を行うため、同じ標本数で抽出をした際、単純無作為抽出法よりも精度が高い
- 層間での比較に適している
- デメリット
- 層を構成する比率について、事前情報が必要
多段抽出法
- 2段階、あるいは3段階に分けて抽出する方法。全国調査など、母集団が大きく単純無作為抽出法の実施が困難な際に行われる
- 1回抽出した(一次抽出)うえで、その単位ごと改めて標本を抽出
- メリット
- 最終単位の台帳があれば調査が可能なので、大規模な調査に適している
- デメリット
- 調査の精度がほかの抽出法を使用したときに比較して悪くなってしまう
感想
無作為抽出については、自分も卒業論文執筆で被験者を募集した際に(実は臨床心理学専攻でした)、無作為に抽出しないとですね、という話になったこともあり、単純無作為抽出法で行ったのですが、まさか、こんなにたくさん種類があるなんて、思いませんでした。データサイエンティストとして、たくさんの種類のデータを今後触っていくのかなぁと考えたときに、今回、データ標本の抽出について改めて勉強し直すっていうのはいい機会になったんじゃないかなぁ、と思っています。
今日はこんな感じで。まだまだやりたいこともやらないといけないこともたくさんです
明日(というか、今日だ・・・)はStapyのみんなのPython勉強会なので、久しぶりにPythonを触ってこようと思います!!
ではでは