統計の入門レベルの項目を復習するためのノート
度数:frequency
・観測値の数
代表値:averages
平均:mean
算術平均:arithmetic mean
・いわゆる平均
\bar x = \frac{1}{n} \sum x_i
幾何平均:geometric mean
・上昇率の平均など
x_G=\sqrt[n] \prod x_i
調和平均:harmonic mean
・速度の平均など
$$\frac{1}{x_H}=\frac{1}{n}\sum\frac{1}{x_i}$$
中央値:median
四分位: quantile
・ソートした後の下からの順位で何%の位置か
第2四分位点 $Q_2$ 50%tile = median
第1四分位点 $Q_2$ 25%分位点
第3四分位点 $Q_2$ 75%分位点
最頻値: mode
右に歪んだ分布(=右裾の長い分布)は一般的に
$$Mean \geq Median \geq Mode$$
一般的に異常値に大きく左右されないという点でMedianが代表値として使われることが多い
平均偏差
$\bar x$:平均
d=\frac{1}{n} \sum |x_i - \bar x|
分散
S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar x)^2
標準偏差
S=\sqrt{S^2}=\sqrt{\frac{\sum(x_i-\bar x)^2}{n}}
2次元のデータ
2次元データの直線への当てはまりの良さを調べる
相関係数 correlation coefficient
ピアソンの積率相関係数
r_{xy}=\frac{\sum(x_i-\bar x)(y_i - \bar y)}{\sqrt{\sum(x_i-\bar x)^2}\sqrt{\sum(y_i-\bar y)^2}}
$rx_{xy}=1$ :正の完全相関 $y=bx+a(b>0)$
$rx_{xy}=-1$ :負の完全相関 $y=-bx+a(b<0)$
最小二乗法 method of least squares
xがyを左右ないし決定するとき
xを独立変数、説明変数
yを従属変数、非説明変数
という
最小二乗法は
二乗和
L=\sum \{y_i-(bx_i+a)\}^2
Lを最小にするa,bを求める
得られた方程式をyのx上への回帰方程式 regression equation
bは回帰直線の傾きで回帰係数 regression coefficient
決定係数 coefficient of determination
b=r_{xy}\frac{S_y}{S_x}
が成立する
$r^2$が1に近いほど(rが+-1に近いほど)直線関係が強い
$r^2$を決定係数と呼ぶ
確率
確率の公理主義的定義 axiomatic definition
- すべての事象Aに対して$0 \leq P(A) \leq 1$
- $P(\Omega)=1$
- たがいに背反な事象$A_1,A_2,\cdots$に対して
$$P(A_1 \cup A_2 \cup \cdots) = P(A_1)+P(A_2)+ \cdots $$
*つまり確率とはある種の測度と言える
条件付き確率 conditional probability
Bを条件とするAの条件付き確率
P(A|B)=\frac{P(A \cap B)}{P(B)}
AとBが同時に起こる確率のうちBがすでに起きている
独立性 independent
Aの起きる確率P(A)がBの起きた如何によらない
$$P(A)=P(A|B)$$
とき独立であるという
ベイズの定理
$$P(H_i|A)=\frac{P(H_i)\cdot P(A|H_i)}{\sum P(H_j)\cdot P(A|H_j)}$$
$$P(A)=\sum P(H_j)\cdot P(A|H_j)$$
$P(H_i)はH_i$の事前確率 prior probability $P(H_i|A)はH_i$の事後確率 posterior probability
事前事後はAが起こる事象を基準にしている
確率変数
ある確率分布で取りうる値の変数を確率変数 random variableと呼ぶ
連続型の確率変数
$$P(a \leq X \leq b)=\int_{a}^{b}f(x)dx$$
確率密度関数 probability density function
$$
\forall x,f(x) \geq0 \land \int_{-\infty}^{\infty}f(x)dt=1
$$
f(x)をXの確率密度関数
確率分布
指数分布 exponential distribution
$$f(x)= \lambda e^{-\lambda x} (x \geq0), 0 (x<0)$$
歪度 skewness
3乗
正ならば右裾が長く、負なら左裾が長い
尖度 kurtosis
4乗
正規分布の$\alpha_4=3$と比較して
$\alpha_4-3$が正なら尖って、負なら丸く鈍い形をしている
離散型の確率分布
超幾何分布
二項分布
ベルヌーイ分布
ポアソン分布
幾何分布
負の二項分布
離散一様分布
連続型の確率分布
正規分布
3シグマ範囲: 997/1000が含まれる(3/1000)
指数分布
待ち時間分布
故障率が一定の機器の故障までの時間
ガンマ分布
ベータ分布
一様分布
コーシー分布
対数正規分布
パレート分布
ワイブル分布
大数の法則 low of large numbers
多くの標本を取れば母集団の平均に近づいていく
多くのサンプルをとるべき根拠
中心極限定理 central limit theorem
$S_n=X_1+X_2+\cdots + X_n$
母集団がどんな分布であれ標本数が多くけば正規分布に近づいていく
大数の法則は平均だけを規定するが、分布の様子までわかるので大数の法則よりも強い定理
χ分布
$Z_1,Z_2,\cdots Z_k$が独立な正規分布N(0,1)に従うとき
$$\chi^2(k)=Z_1^2+Z_2^2+\cdots + Z_n^2$$
を自由度kのχ二乗分布という
t分布
推定
仮説検定
回帰分析
参考
復習に使ったテキストがとても良かった
・わかりやすく読みやすい
・単語に英訳がついてる
・図表とサンプルが多い
ひととおり内容を押さえるために一読をオススメ
統計学入門 (基礎統計学Ⅰ) 東京大学教養学部統計学教室 https://www.amazon.co.jp/dp/4130420658/ref=cm_sw_r_tw_dp_U_x_dxEOCb0V8NTC3