はじめに

統計学を学び始めたばかりの筆者が学んだ統計学を学んだ順に書く．
まずは基礎の基礎．
Pythonとともに．

import numpy as np
import scipy as sp

1. 平均値（期待値）

sp.mean(data)

分散とは「データが平均値からどれほど離れているか」を表す指標．

データサイズが小さいと標本分散の期待値は母分散より小さくなる．

sp.var(data, ddof = 0)

標本分散の持つ「分散を過少に見積もってしまうバイアス」をなくしたもの．

一致性と普遍性を持ち，母分散を推定できる．

sp.var(data, ddof = 1)

分散は単位が2乗されており扱いづらいことから平方根をとって標準偏差として扱う．

sp.std(data, ddof = 1)

データを昇順に並べたときにちょうど真ん中に来る数値．
平均値は外れ値の影響を大きく受けるが，中央値は外れ値に頑健．

sp.median(data)

データを照準に並び替えたときに下から25%にあたる点．

from scipy import stats

stats.scoreatpercentile(data, 25)

2種類のデータの関係性を示す指標．
共分散が

# データの取り出し
x = data["x"]
y = data["y"]
# サンプルサイズ
N = len(data)
# 平均値
mu_x = sp.mean(x)
mu_y = sp.mean(y)

# 共分散
cov = sum((x - mu_x) * (y - mu_y) / N

複数の変数において，分散と共分散の一覧を行列の形式でまとめたもの．

sp.cov(x, y, ddof = 0)

共分散を最大値1，最小値-1に標準化したものとみなせる．
共分散は最大値や最小値がわからない．それでは使いにくいため，-1~+1の範囲に入るように補正する．

# 分散の計算
sigma_x = sp.var(x,ddof = 1)
sigma_y = sp.var(y,ddof = 1)
# 相関係数
rho = cov / sp.sqrt(sigma_x * sigma_y)

複数の変数において相関係数の一覧を行列の形式でまとめたもの．

sp.correct(x, y)