LoginSignup
0
1

More than 3 years have passed since last update.

statsモジュールの関数

Last updated at Posted at 2020-01-25

cdf関数

累積分布関数を表す。cdfとは「Cumulative Distribution Function」の略。

累積分布関数とは?

ある値以下となる確率を計算してくれる関数のこと。

正規分布の時の関数の中身

\begin{align}
F(x)&=P(X\leq x) \\
&=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
\end{align}
stats.hoge.cdf
  • 正規分布のとき
stats.norm.cdf(loc = <平均値>, scale=<標準偏差>, x = x)
  • t分布のとき
sats.t.cdf(<t値>, df=<自由度>)

また、p値は累積分布関数で出力される値を1から引くことで求められる。

ttest_1samp関数

1変量データのt検定を行う関数。
ただ、事前に、2変量の差分を求めれば、2変量データのt検定を行える。

>>>stats.ttest_1samp(data, x)
>>>Ttest_1sampResult(statistic=hoge, pvalue=hoge)

dataは標本を表し、xは対象となる数値である。
出力に出てくるstatisticはt値、pvalueはp値を示す。

ttest_rel関数

対応関係のある2変量データに対するt検定を行う関数。
データxの平均とデータyの平均との間に有意差があるかを検証。

stats.ttest_rel(x, y)

ttest_ind関数

対応関係のない2変量データに対するt検定を行う関数。

stats.ttest_ind(x, y, equal_var = False)

equal_varがFalseの時は、データの等分散性がないと仮定(確定)している。

stats.chi2_contingency関数

χ二乗検定を行う関数

>>>stats.chi2_contingency(data, correction = False)
>>>(a, b, c, array([[d, f],
   [g, h]]))

デフォルトではcorrectionがTrueになっており、イェーツの補正が入る。
結果は、χ二乗統計量、p値、自由度、期待度数の表の順に出力される。

stats.hoge.pmf関数

確率質量関数(Probability Mass Function)のこと。すなわち、確率論および統計学において、離散型確率変数にその値をとる確率を対応させる関数。

二項分布のとき

>>>sp.stats.binom.pmf(k = 1, n = 2, p = 0.5)
>>>0.500

引数は左から成功回数、試行回数、成功確率を入れる。

ポアソン分布のとき

>>>so.stats.poisson.pmf(k = 2, mu = 5)
>>>0.084

これは強度が5のポアソン分布において、2が得られる確率を示したものである。

stats.hoge.rvs関数

乱数を発生させる。

二項分布のとき

「『表が出る確率が20%であるコインを10回投げて、表が出た回数を数える』という試行を5回繰り返す。」というコードが下にある。

>>>np.random.seed(1)
>>>sp.stats.binom.rvs(n = 10, p = 0.2, sizse = 5)
>>>array([2, 3, 0, 1, 1])
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1