はじめに
統計検定2級の勉強に マンガで分かる統計学入門 を読んだので、そこで出てきた統計用語についてまとめました。非常にわかりやすく統計学の導入におすすめです。
統計用語まとめ
-
度数分布表
- データをいくつかの階級に分けてその階級ごとの個数(これを度数または頻度という)を表にしたもの
-
度数
- 各階級に分類されたデータの個数のこと
-
分布している
- 数値がばらけている様子のこと
-
データの範囲
- 最大値と最小値との差
-
階級(クラス)、カテゴリ
- データの範囲をいくつかに分割した区間のこと。
- 階級の幅は必ずしも等しくする必要はない
- 階級境界値とは階級の境界の値
- 階級値とは階級境界値の中央の値
- データの範囲をいくつかに分割した区間のこと。
-
ヒストグラム
- 度数分布表をグラフ化したもの
- 縦軸が度数、横軸を階級
- 階級の個数と幅の決め方によって大きく変わるため、度数分布の傾向、データ全体の傾向を見るために使う
-
相対度数
- 各階級の度数が全体の度数の中でどの程度を占めているかの指標
-
累積度数
- 累積した度数の合計
-
累積相対度数
- ある階級までに累積度数がすべての度数の中でどの程度を占めているかのしひ
-
統計指標
- 算術平均
- すべてのデータを合計して、総数で割った値
- 加重平均
- 各データごとの重要度を考慮した平均のこと
- メディアン
- 中央値
- モード
- 最頻値
- 分散
- 偏差を二乗した値を足してデータの総数ー1で割った値
- 分布の散らばり具合を知るための指標
- 二乗することでプラスとマイナスの値を同じに扱えるようにする
- 偏差
- 個々のデータから平均値を引いた値
- 標準偏差
- 分散の正の平方根
- 分散で二乗されたままだと、元のデータと単位が合わないので、平方根を取っている
- 標準化変量
- (xn- xの平均値) / xの標準偏差
- 平均値=0,, 標準偏差=1 の分布に従ったデータから抽出したものと考えることができる
- 例として平均点の異なる英語と数学の点数を同じ土俵で比較するためのもの
- 英語が60点、数学が40点だった時に、単純に点数で比較すると英語の方が好成績だったと考えてしまうが、平均値と標準偏差の異なる2種類のデータから得られたデータがそれぞれ集団の中でどんな位置にいるかを表す指標が標準化変量
- (xn- xの平均値) / xの標準偏差
- 標準化
- データを平均値0、標準偏差1に変換すること
- 上記の分布を標準正規分布という
- 偏差値
- 平均値50、標準偏差10の分布に従うように変換したもの
- 標準化変量 * 10 + 50
- 変動係数
- 数学の満点が100, 英語の満点が1000点で単位が異なるとき、分散を比較することはできない
- そこで変動係数 = 標準偏差 / 平均値 を用いると比較できるようになる
- 単位の問題を調整した分布のばらつきを示す統計指標
- 共分散
- 二つの異なる事象の相関関係を示す指標
- 相関関係はお互いの事象に関連があるという関係、因果関係は原因が結果を招くことはあっても、結果が原因を招くことはない関係
- https://mainichi.jp/articles/20170119/mul/00m/040/00600sc
- 相関関係
- イケメン度とチョコレートの数は相関がある
- 足の大きさとチョコレートの数は相関がない
- 因果関係
- イケメンだとチョコレートがたくさんもらえる
- チョコレートがたくさんもらえるからといってイケメンとは限らない
- 相関係数
- 相関の度合いは散布図を見ればわかるが、強弱はわからない
- x, y の相関係数 = xとyの共分散 / (xの標準偏差 * yの標準偏差)
- 相関係数は外れ値の影響を受けやすい
- 算術平均
-
推測統計学と記述統計学と確率
- 記述統計学
- データを整理してその特徴を明らかにする統計学
- 平均値、分散標準偏差、共分散、度数分布表などを計算すること
- 推測統計学
- 標本を分析して、母集団の特徴を推定、仮説検定する統計学のこと
- 母集団全体が大きすぎて全体を把握できないとか、今あるデータから未来に起こることを予測したい時に使う
- 株式市場のように何が起こるかわからない状況を取り扱うのは不確実性の世界という
- 一方、サイコロの目のようにどんな目が出るかわかっている状況をリスクの世界という
- 統計データを撮るときの調査対象の全体を母集団という
- クラスのテストだったら全員の点数を調べることはできるが、例えば政策を支持する党などを調査する時に全員に聞くことはできない
- こんな時に母集団から一部を取り出して、そこから推測する
- 標本
- 母集団から取り出した一部
- 無作為に抽出しないと結果が偏ってしまう
- 標本抽出
- 母集団から一部を取り出すこと
- 推定
- 母集団から取り出した標本から母集団の特性を推定すること
- 仮説検定
- 母集団の特性についての先験的仮説が経験的に観察されるデータと矛盾しないかどうかを確かめること
- 確率変数
- 推測統計学では階級値、相対度数、度数分布表を確率で記述する
- 実現値
- ある地点を過ぎて定まる値のこと
- 小文字で表す
- 確率変数
- 一つの無作為標本がどのような数値を取るのか不確実な場合、その標本は確率変数だといえる
- サイコロの目は1/6で出るので、1から6のように確率をともなう不確実な値のことを確率変数という
- 1から6は確率変数
- 大文字で表す
- 確率分布
- ある現象がいろいろな値を取り得るとき、取り得る値全体を確率変数として表す。どのような値をとるかは決まっていないが、取りうる値、もしくは取りうる値の範囲とその値をとる確率または確率密度が決まっている数のこと。一般に離散型と連続型の二つが用いられる。
- 離散型確率変数
- 株価の予想収益率のように -10, 5, 25といった不連続な値の時
- 分布関数
- 記述統計学
-
正規分布で将来を予測する
- 正規分布
- 平均値の左右に対称的に集まる分布
- 平均値と標準偏差の二つで形が変わる
- 期待値(平均値)
- 分布の中心値
- μ と表す
- 標準偏差は σ で表す
- μ ± σ の間になる確率は 68.3 % と決まっている
- 標準正規分布
- 期待値(平均値)が0、標準偏差が1の正規分布のこと
- 正規分布の再生性
- 独立な二つの正規分布に従うデータを足したデータは正規分布に従う
- 正規分布
-
標本から母集団を推定
- 全数調査
- 母集団の要素が全てわかっているパターン
- 標本調査
- 無作為標本を調べる
- 母数
- 母集団の分布の特徴を示す数値
- 標本統計量
- 無作為標本の分布の特徴を示す数値
- 推定
- 全体を把握できない母集団があるとき、未知の母数を標本統計量によって推測する作業
- その推定した母数のことを推定量という
- 推定量は確率変数
- 標本の抽出のたびに推定量は変わるため
- 未知の母数の推定には二つの方法がある
- 点推定
- 推定量を一つの値としてピンポイントで推定すること
- 区間推定
- 推定量をある範囲内の値であると推定すること
- 点推定
- 統計的推定とは、正規分布にしたがう母集団から複数回の無作為抽出をしたときの一つの標本について考えること
- 標本平均を考えるときは場合分けが必要
- 有限母集団
- データ数が有限の場合
- 無限母集団
- データ数が無限の場合
- 有限母集団
- 中心極限定理
- 標本が大きくなればなるほど、母集団の分布がどうなっていたとしても(正規分布でなくても)標本平均の分布は正規分布に近くなる
- 推定量の不遍性
- 母集団から無作為抽出された標本から標本平均を計算し、それを複数回行う。得られた複数の標本平均の期待値を求めたとき、母平均に等しくなること
- 推定量の一致性
- 標本に含まれるデータの数が増えていくと、標本平均が母平均とほぼ一致する
- 推定量の有効性
- 二つの推定量が不遍性と一致性を共に満たしているとき、第一推定量の分散が第二推定量の分散よりも小さければ第一推定量は相対的に有効な推定量であるという
- 全数調査
-
母集団の推定方法 点推定と区間推定
- 点推定
- 未知の母数をある一つの値で推定すること
- 区間推定
- 信頼区間
- 母数の推定量が含まれる区間
- 信頼区間
- 点推定
-
仮説検定
- 仮説検定の手順
- 帰無仮説を立てる
- 帰無仮説とはありそうもない仮説
- 対立仮説を立てる
- 帰無仮説と反対の内容の仮説。こちらは主張したい仮説
- 検定統計量を求める
- 有意水準にもとづいて棄却域を求める
- 有意水準とは区間推定の場合、信頼区間から外れる確率。簡単にいうと、判断を誤る確率
- 棄却域とは仮説が否定される範囲
- 採択域とは仮説が採用される範囲
- 仮説を棄却するかしないか判断する
- 仮説を棄却する根拠がないとしても、仮説が正しいと決まるわけではない
- 誤り
- 第1種の謝り
- 帰無仮説が真であるのに、帰無仮説を棄却して真でない対立仮説を採用するという謝りのこと
- 第2種の謝り
- 帰無仮説が真でないのに、帰無仮説を棄却しないで真である対立仮説を採用しない謝り
- 第1種の謝り
- 帰無仮説を立てる
- 仮説検定の手順
-
仮説検定の方法 片側検定と両側検定
-
不偏推定量
- 平均的には真の値を正しく予測できるような推測量
- 標本分散はサンプルサイズが小さいと母分散よりも小さくなる
- 母平均に近づくようにサンプルを選ぶとすると、
-
二つの異なる母集団の平均の差の信頼区間
- 二つのデータが対応のだるデータか対応のないデータかによって算出方法が異なる
- 対応があるデータ
- 同じ対象に対する二つのデータのこと
- 二つのデータのサンプルサイズは必ず等しくなる
- 5人の1学期のテストと二学期のテストの点数の比較とか
-
標準誤差
- 推定量の標準偏差
- 推定量とは標本から推定した母数のこと
- 標本から得られる推定量そのもののばらつきを表すもの
- 不偏分散をサンプルサイズの平方根で割る
-
母平均の信頼区間の求め方
- 母比率
- 母集団においてある事象が起こる確率
- 二項分布
- ベルヌーイ試行
- コインを投げたときに裏か表かのように、何かを行ったときに起こる事象が二つしかない試行のこと
- 二項分布とは、ベルヌーイ試行をn回行って、成功する回数が従う確率分布のこと
- 成功確率がpである試行をn回行うときに成功する回数をXとすると、Xは二項分布B(n, p)に従うが、このpが母比率
- ベルヌーイ試行
- 母比率