More than 5 years have passed since last update.

statsモジュールの関数

Last updated at 2020-02-01Posted at 2020-01-25

cdf関数

累積分布関数を表す。cdfとは「Cumulative Distribution Function」の略。

ある値以下となる確率を計算してくれる関数のこと。

\begin{align}
F(x)&=P(X\leq x) \\
&=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
\end{align}

stats.hoge.cdf

stats.norm.cdf(loc = <平均値>, scale=<標準偏差>, x = x)

sats.t.cdf(<t値>, df=<自由度>)

また、p値は累積分布関数で出力される値を１から引くことで求められる。

1変量データのt検定を行う関数。
ただ、事前に、2変量の差分を求めれば、2変量データのt検定を行える。

>>>stats.ttest_1samp(data, x)
>>>Ttest_1sampResult(statistic=hoge, pvalue=hoge)

dataは標本を表し、xは対象となる数値である。
出力に出てくるstatisticはt値、pvalueはp値を示す。

対応関係のある2変量データに対するt検定を行う関数。
データxの平均とデータyの平均との間に有意差があるかを検証。

stats.ttest_rel(x, y)

対応関係のない2変量データに対するt検定を行う関数。

stats.ttest_ind(x, y, equal_var = False)

equal_varがFalseの時は、データの等分散性がないと仮定（確定）している。

χ二乗検定を行う関数

>>>stats.chi2_contingency(data, correction = False)
>>>(a, b, c, array([[d, f],
   [g, h]]))

デフォルトではcorrectionがTrueになっており、イェーツの補正が入る。
結果は、χ二乗統計量、p値、自由度、期待度数の表の順に出力される。

確率質量関数(Probability Mass Function)のこと。すなわち、確率論および統計学において、離散型確率変数にその値をとる確率を対応させる関数。

>>>sp.stats.binom.pmf(k = 1, n = 2, p = 0.5)
>>>0.500

引数は左から成功回数、試行回数、成功確率を入れる。

>>>so.stats.poisson.pmf(k = 2, mu = 5)
>>>0.084

これは強度が5のポアソン分布において、2が得られる確率を示したものである。

乱数を発生させる。

「『表が出る確率が20%であるコインを10回投げて、表が出た回数を数える』という試行を5回繰り返す。」というコードが下にある。

>>>np.random.seed(1)
>>>sp.stats.binom.rvs(n = 10, p = 0.2, sizse = 5)
>>>array([2, 3, 0, 1, 1])