Rにおける 偏差 分散 標本分散 不偏分散
var()は分散を求めるための関数
これはRにおいて標本分散を求めるためではなく不偏分散を求めるためのものである
標本分散
標本分散とはs^2であらわされる
howto 平均値とここのデータの差の2乗の平均を求めることによって表される
つまり 偏差の二乗和をデータ数で割ったもの
*varp()とおくと
varp <- function(x){
標本分散 <- var(x)*(length(x)-1)/length(x)
標本分散
}
不偏分散
howto 偏差の二乗和を(データ数-1)で割ったもの
*var()であらわす
標準偏差
howto 分散の平方根で求められる
散布度の指標として最も多く用いられる
論文などでは平均とともに標準偏差が示される
*sd()であらわされるがこれは不偏分散を用いた標準偏差であるため標本分散を用いた値とは異なることに注意しなくてはならない
共分散
howto 2変数x,yを設定すると
{(x1-x平均)(y1-y平均)+(x2-x平均)(y2-y平均)+・・・・・・・・・・+(xn-x平均)(yn-y平均)}/n
*cov()であらわされるが、不偏共分散であることに注意する。つまり割るときに(データ数-1)を用いている
*Rにおける式
例1 共分散1と2 <- sum ((変数x-mean(変数x))(変数y-mean(変数y)))/length(変数x)
例2 共分散1と2 <- mean((変数x-mean(変数x))(変数y-mean(変数y)))
例3 共分散1と2 <- cov(変数x,変数y)*(length(変数x)-1)/length(変数x)
共分散は単位に依存することに注意する。そこで標準化を行うことにより単位の影響を受けない相関の指標、すなわち相関係数を用いる。
相関係数
howto
cov(変数x,変数y)/(sd(変数x)*sd(変数y))
cor(変数x,変数y)
であらわされる。ここまでは標本分散か不偏分散のどちらを使うかによって値が変わったが、分母と分子で標準偏差の分母が相殺されるので気にしなくて大丈夫。
標本分布
標本分布とは標本統計量(標本平均、標本分散など)に関する確率分布のことである。
無作為抽出標本に含まれるここのデータは確率変数であるので、どうように標本統計量も確率変数である。
標本分布は標本統計量がどのような値をとりやすいか、どの値をとりにくいかを確率を用いて表したもの。
標本分布は母集団分布、標本統計量の種類、サンプルサイズが決まると理論的に導かれる値である。
標準誤差
標準誤差は推定量の標本分布の標準偏差として定義する。