ネット調査とリアルで10差があるという仮定で線形回帰してみた。
bias=c()
for(i in 1:500){
Nreal=i
Nnet=1000-i
d1=rnorm(Nreal,mean=190)
d2=rnorm(Nnet,mean=200)
df=data_frame(h=c(d1,d2),bias=c(rep(0,Nreal),rep(1,Nnet)))
res=lm(h~.,df) %>% summary()
bias=c(bias,as.data.frame(res$coefficients)[2,1])
}
ts.plot(bias)
summary(lm(bias~seq(1,length(bias))))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.986e+00 1.015e-02 983.782 <2e-16 ***
seq(1, length(bias)) 4.130e-05 3.511e-05 1.176 0.24
という事で、それほど問題はないと思う。n=30まででも同様。
ただ、このケースだとn=30くらいまではバリアンスが大きいケースがちらほら出る。