#cdf関数
累積分布関数を表す。cdfとは「Cumulative Distribution Function」の略。
##累積分布関数とは?
ある値以下となる確率を計算してくれる関数のこと。
###正規分布の時の関数の中身
\begin{align}
F(x)&=P(X\leq x) \\
&=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
\end{align}
stats.hoge.cdf
- 正規分布のとき
stats.norm.cdf(loc = <平均値>, scale=<標準偏差>, x = x)
- t分布のとき
sats.t.cdf(<t値>, df=<自由度>)
また、p値は累積分布関数で出力される値を1から引くことで求められる。
#ttest_1samp関数
1変量データのt検定を行う関数。
ただ、事前に、2変量の差分を求めれば、2変量データのt検定を行える。
>>>stats.ttest_1samp(data, x)
>>>Ttest_1sampResult(statistic=hoge, pvalue=hoge)
dataは標本を表し、xは対象となる数値である。
出力に出てくるstatisticはt値、pvalueはp値を示す。
#ttest_rel関数
対応関係のある2変量データに対するt検定を行う関数。
データxの平均とデータyの平均との間に有意差があるかを検証。
stats.ttest_rel(x, y)
#ttest_ind関数
対応関係のない2変量データに対するt検定を行う関数。
stats.ttest_ind(x, y, equal_var = False)
equal_varがFalseの時は、データの等分散性がないと仮定(確定)している。
#stats.chi2_contingency関数
χ二乗検定を行う関数
>>>stats.chi2_contingency(data, correction = False)
>>>(a, b, c, array([[d, f],
[g, h]]))
デフォルトではcorrectionがTrueになっており、イェーツの補正が入る。
結果は、χ二乗統計量、p値、自由度、期待度数の表の順に出力される。
#stats.hoge.pmf関数
確率質量関数(Probability Mass Function)のこと。すなわち、確率論および統計学において、離散型確率変数にその値をとる確率を対応させる関数。
##二項分布のとき
>>>sp.stats.binom.pmf(k = 1, n = 2, p = 0.5)
>>>0.500
引数は左から成功回数、試行回数、成功確率を入れる。
##ポアソン分布のとき
>>>so.stats.poisson.pmf(k = 2, mu = 5)
>>>0.084
これは強度が5のポアソン分布において、2が得られる確率を示したものである。
#stats.hoge.rvs関数
乱数を発生させる。
##二項分布のとき
「『表が出る確率が20%であるコインを10回投げて、表が出た回数を数える』という試行を5回繰り返す。」というコードが下にある。
>>>np.random.seed(1)
>>>sp.stats.binom.rvs(n = 10, p = 0.2, sizse = 5)
>>>array([2, 3, 0, 1, 1])