はじめに
統計学を学び始めたばかりの筆者が学んだ統計学を学んだ順に書く.
まずは基礎の基礎.
Pythonとともに.
import numpy as np
import scipy as sp
1. 平均値(期待値)
sp.mean(data)
2. 標本分散
分散とは「データが平均値からどれほど離れているか」を表す指標.
データサイズが小さいと標本分散の期待値は母分散より小さくなる.
sp.var(data, ddof = 0)
3. 不偏分散
標本分散の持つ「分散を過少に見積もってしまうバイアス」をなくしたもの.
一致性と普遍性を持ち,母分散を推定できる.
sp.var(data, ddof = 1)
4. 標準偏差
分散は単位が2乗されており扱いづらいことから平方根をとって標準偏差として扱う.
sp.std(data, ddof = 1)
5. 中央値
データを昇順に並べたときにちょうど真ん中に来る数値.
平均値は外れ値の影響を大きく受けるが,中央値は外れ値に頑健.
sp.median(data)
6. 四分位点
データを照準に並び替えたときに下から25%にあたる点.
from scipy import stats
stats.scoreatpercentile(data, 25)
7. 共分散
2種類のデータの関係性を示す指標.
共分散が
- 0より大きい:片方の変数が大きい値をとればもう片方も大きくなる
- 0より小さい:片方の変数が大きい値をとればもう片方も小さくなる
- 0ちょうど:変数同士に関係性が見られない
# データの取り出し
x = data["x"]
y = data["y"]
# サンプルサイズ
N = len(data)
# 平均値
mu_x = sp.mean(x)
mu_y = sp.mean(y)
# 共分散
cov = sum((x - mu_x) * (y - mu_y) / N
8. 分散共分散行列
複数の変数において,分散と共分散の一覧を行列の形式でまとめたもの.
sp.cov(x, y, ddof = 0)
9. ピアソンの積率相関係数
共分散を最大値1,最小値-1に標準化したものとみなせる.
共分散は最大値や最小値がわからない.それでは使いにくいため,-1~+1の範囲に入るように補正する.
# 分散の計算
sigma_x = sp.var(x,ddof = 1)
sigma_y = sp.var(y,ddof = 1)
# 相関係数
rho = cov / sp.sqrt(sigma_x * sigma_y)
10. 相関行列
複数の変数において相関係数の一覧を行列の形式でまとめたもの.
sp.correct(x, y)