はじめに
エンジニア?アナリスト?サイエンティスト?歴5ヶ月めの新卒社員が最近学んだことをちょっとずつまとめてみたもの。第8弾の記事でございます。ここまでちょこちょこ書くことはあったのですが、最近はひとりAdvent Calendar中ということもあって短期間にスパンスパンと投稿をするという感じで、新人だからこそネタがあるはずなのに書く内容に困りつつあります。
そこで、今回は、データ分析をするにあたってもう一度勉強し直そうと思った統計の中から、要約統計量についてまとめてみました、どんっ
あくまで備忘録としての投稿がメインなので、拙い記事ではあるんですが、気になる記事は見ていただけると嬉しいです(.・v・)ノ
なお、直近3回の記事はこちら↓。第5弾からが今回のAdvent Calendarにあわせて書き始めたものです!
第5弾
第6弾
第7弾
前提知識
尺度の種類
- データを取り扱う数値の尺度としての種類は、以下の4つ。
- 名義尺度・・・対象の区別をするために割り当てた数字。名称や識別記号と同じ扱い。ひとつひとつの対象の分類ができればよいため、分類に支障がない範囲で数値を任意(≒比較的自由)に変換可能(ex. 背番号、郵便番号など)
- 順序尺度・・・対象の大小や強弱による順序関係を区別する際に使用する数字。(ex. クラス内順位、星の明るさの等級など)
- 間隔尺度・・・ふたつの対象の数値の差が比率尺度になっている尺度。特性(特徴)のない状態を絶対0点として設定できない(ex. 気温、西暦など)
- 比率尺度・・・特性(特徴)のない状態の絶対0点が存在する(ex. 体重、身長、時間など)
よく使用する単語
- 標本・・・データのひとつひとつのサンプルのこと
- 標本数・・・データの数(母数)
- 母集団・・・データが所属している集団、最終的に知りたい目標とする関心対象
- 外れ値・・・ほかの値から大きく外れた場所にある値
要約統計量とは?
- 要約統計量・・・変数の分布の状態や、特徴を表すために使用する数値。基本統計量ともいう
- 要約統計量の種類
以下の4種類が主な要約統計量の種類。- 代表値・・・分布の中心的な位置を表現する数値。平均値、中央値、最頻値など
- 順序統計量・・・データ(数値)を小さい順に並べたうえで、その結果を利用して算出する統計量。最大値、最小値など
- 散布度・・・分布の広がりを表現する全般的な要約統計量。標準偏差、分散など。この散布度は間隔尺度のデータで使用されることも多く、基準となる原点と単位に関して任意性があるため、標準化される(cf. 標準偏差など)
- モーメント・・・分布の特徴を示す一般的な統計量
代表値
分布の中心的な位置を表現する数値。
平均値
平均値は、以下の4種類に分類される。
-
算術平均・・・「相加平均」とも。一般的にいわれる平均はこれのこと。代数的な取り扱いが簡単。
求め方:データとなる数値の合計/データの個数 - 幾何平均・・・n個のデータ(数値)の積のn乗根。データは常に正の数でなければならない。
- 調和平均・・・n個のデータ(数値)の算術平均を逆数(その数値を分母にした分数)にしたもの。算術平均にくらべ、数値の大きなデータの影響を受けにくく、値が小さくなる。
- 調整平均・・・「トリム平均」とも。両側の一定の割合分のデータを取り除いたうえで算術平均を出した結果。外れ値の影響を受けにくい。取り除いた割合の数値a%を使用して「a%調整平均」という。a=25の場合、中央平均という
中央値
- データを小さい順から並べた際に真ん中にあたるデータの数値(偶数の場合は真ん中にあたる2つの数値の平均)。
- メディアン、中位数ともいう
- 外れ値の影響を受けにくい(「抵抗性がある」という)。
- 名義尺度以外のデータで計算することが可能
- 階級の幅、間隔による影響を受けにくい
最頻値
- データの数値の分布が単峰形のとき、最も現れやすいデータの数値(分布の形の頂点にあたる箇所)
- すべての尺度で求めることが可能
- 外れ値の影響を受けることがなく、抵抗性が高い
- 間隔尺度、比率尺度の階級の幅、間隔による影響を受けやすい
- データの数値の分布の山がふたつ以上(現れやすいデータがふたつ以上)のものには使用するのに向いていない
順序統計量
データ(数値)を小さい順に並べたうえで、その結果を利用して算出する統計量。
最大値、最小値
- 最大値・・・そのデータの持つ数値のうち、最も大きいもの。
- 最小値・・・そのデータの持つ数値のうち、最も小さいもの。
パーセンタイル
-
Aパーセンテージ・・・基準となる数値以下の大きさのデータが少なくともA%はあるようなデータの最小値のこと。
- 例1:12個のデータの25パーセンタイル
→12×0.25=3 より、小さい方から数えて3番目のデータ - 例2:15個のデータの25パーセンタイル
→15×0.25=3.75
5/15=3.333・・・ 6/15=0.4 より、小さい方から数えて5番目のデータ
- 例1:12個のデータの25パーセンタイル
-
四分位・・・パーセンタイルのうち、
- 25パーセンタイル→第1四分位
- 50パーセンタイル→第2四分位
- 75パーセンタイル→第3四分位
とそれぞれいう。
散布度
分布の広がりを表現する全般的な要約統計量。
平均偏差
- 偏差・・・個々の数値と平均値との差。
- 平均偏差・・・平均からの偏差の絶対値の平均。散らばりの平均を「距離」としてそのまま計算した数値
- 長所:意味が直感的でわかりやすい
- 短所:絶対値の計算が式展開に不向きでほかの理論との整合性が必ずしもよくない→頻繁に利用される統計量ではない
- 正規分布の場合、目安として標準偏差の4/5程度の数値に
分散
- 分散・・・平均からの偏差の2乗の平均。
- 長所:要因による分解が容易で理論展開に優れている(数式上で扱いやすく、式変形がしやすい)
- 短所:分散の単位はもとの変数の単位の2乗になっているので解釈が難しい、抵抗性は平均偏差と比較して低い
不偏分散
- 不偏分散・・・無限母集団(無限に繰り返してデータを得ることができる実験等の母集団)における母分散(母集団の特徴をあらわす分散)を偏りなく推定するときに使用する統計量。
- 分散との求め方の違い→分散は偏差の2乗の平均を取るため、偏差の2乗の合計を標本数(n個)で割るのに対し、不偏分散は標本数から1引いた値(n-1)で割る
標準偏差
- 標準偏差・・・分散の平方根。
- 長所:平方根を計算することにより、標準偏差の単位はもとの変数の値と一致し、解釈しやすくなる→標準偏差が散布度として最も頻繁に使用される
- 短所:抵抗性は高くない
レンジ
- レンジ(範囲)・・・最大値から最小値を引いた値。データの標本数が少ないときに手軽に利用される散布度の指標。抵抗性は低い
- 十分位レンジ・・・90パーセンタイルから10パーセンタイルを引いた値。データの数が増加すると外れ値の影響を受けずに分布の広がりが推定可能
-
四分位レンジ・・・75パーセンタイルから25パーセンタイルを引いた値。
-
四分位偏差
- 求め方:四分位レンジ/2
- 外れ値がある場合に分布の散布度として利用可能
- 分位数による散布度では最もよく利用される
- 正規分布では標準偏差の2/3程度の数値に
-
四分位偏差
変動係数
- 求め方:標準偏差を算術平均で割る
- 標準偏差の平均に対する相対的な大きさを評価する指標→負の数を含むデータは利用不可
標準化
- 平均が0、分散が1となるようにデータを変換すること。正規化、基準化ともいう→これによって変換された結果が標準得点
標準得点
- 標準得点・・・間隔尺度のデータは原点と単位に関して任意性があるため、観測値(データ)の平均値を原点に、標準偏差を単位に変換した得点。
- 標準得点の平均は0になる(分散は1)
偏差値
- 偏差値・・・標準得点を10倍することによって小数を取り扱わないように、50を加えることによって負の数を扱わなくてよいように工夫された得点。
- 日本では、非常に普及している(ex. 受験における志望校の比較の指標として)
- 偏差値の平均は50、標準偏差は10
モーメント
- モーメント・・・データがどのように分布しているのかを示すもの。
- 主なモーメントの種類
- 積率歪度・・・標準得点に関する原点の周りの3次のモーメントで、分布の歪みを示す。正の外れ値があるとき、歪度も正になる
- 積率尖度・・・標準得点に関する原点の周りの4次のモーメントで、分布の尖りを示す。裾が重たい(分布の減りが緩やかな)データの場合は、尖度が大きくなる
参考文献
- 豊田 秀樹『シリーズ<調査の化学>1 調査法講義』(朝倉書店, 1998)
- 豊田 秀樹『違いを見ぬく統計学-実験計画と分散分析入門-』(講談社, 1994)
終わりに
今回は自分が知っていた知識を、ちゃんと説明できるようにということが目的になっていたので、自分でうまくかけた用語はそのままで、うまく説明できないなぁと思った部分は、自分が大学時代に使っていた参考文献(上に書いてあります)を見て、少しいい回しを変えて書いていきました正直、モーメントとか知らんがなの領域だった。
最近、結構関係ないことで心を削るような失態を犯してしまいがちですが、今年もあとちょっとなので、しゃかりきに走り抜けていきます^^
ではでは