5
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

1. Pythonで学ぶ統計学 1-3. 各種統計量の計算(statistics)

Last updated at Posted at 2020-06-09

statisticsとは、Pythonの標準ライブラリで、統計計算用のパッケージです。
このstatisticsをつかって各種の統計量を計算していきます。
(原則として Google Colaboratory 上でコードの記述や結果の確認をおこないます)

####⑴ 数値計算に使うライブラリをインポートする
まず、!pip install xxxxコマンドを使って、statisticsをColaboratory上にインストールします。

!pip install statistics
import statistics as stat # statisticsをインポート

####⑵ データを用意する

data = [12, 3, 5, 2, 6, 7, 9, 6, 4, 11]

####⑶ 母標準偏差・不偏標準偏差を算出する

stat.pstdev(data)

statisticsのpstdev関数は population standard deviation の略で、つまりstatisticsでは母標準偏差を指定して計算します。
001_003_001.PNG

続いて、不偏標準偏差を算出します。

stat.stdev(data)

英語で不偏標準偏差は unbiased standard deviation ですが、statisticsにおいてはこれがstdev関数となります。
001_003_002.PNG

##分散

標準偏差は、分散の平方根をとったものです。
そして分散は、「データが平均値からどの程度ばらついているか」を表した指標であり、計算式に書くと次のようになります。
$σ^2 = \frac{1}{N} {\displaystyle {\sum_{i=1}^{N} (x_{i}-μ)^2}}$
データの個数は全部で$N$個あります。
式中の$(x_{i}-μ)$は、データ$x$の$i$番目の値から平均値$μ$を差し引いたもの、これを偏差と呼びます。この偏差を2乗したもの$(x_{i}-μ)^2$を、$i=1$番目から$N$番目まで全部のデータについて合計するというのが$\sum_{i=1}^{N}$の意味するところです。これをまとめて偏差平方和と呼びます。
この偏差平方和に$\frac{1}{N}$をかけ算する、つまりデータの個数$N$個で割ったものが分散です。
かりに、「データと平均値との差」をその間の距離だとすると、分散とは、データ全体としてみたときの「データと平均値との距離の平均値」といえます。データ全体として平均値からどの程度離れているか、ばらつき具合いを表していることになります。
正確には、これを標本分散といいます。
標本分散には偏りがあることが知られており、この欠点を修正した不偏分散を使うのが普通です。

####⑷ 不偏分散を算出する

stat.variance(data)

001_003_003.PNG

念の為、不偏分散の平方根をとって確かめてみます。

import numpy as np # Numpyをインポート
data_2 = stat.variance(data) # 不偏分散の値を変数data_2に格納
np.sqrt(data_2) # data_2の平方根をとる

001_003_004.PNG

不偏分散の平方根は、確かに不偏標準偏差と一致しています。

##不偏分散

不偏分散の計算式を示します。
$σ^2 = \frac{1}{N-1} {\displaystyle {\sum_{i=1}^{N} (x_{i}-μ)^2}}$
先の標本分散の計算式と異なるのは、$\frac{1}{N}$が$\frac{1}{N-1}$になっているところです。分母が1だけ小さくなるので、不偏分散は標本分散よりも少し大きな値となります。
なぜ、このような操作をするのか。
ここで思い起こしたいのは、分散を計算するために、あらかじめ平均値を計算しているということです。
本当なら母平均を使いたい、でもそれがわからないから標本平均を使うしかない。
この標本平均は、母集団の中の一部の平均値に過ぎないので、母集団における真の平均値(母平均)とは多少ずれていると考えるのが自然でしょう。

そこで、この ‘ずれ’ のメカニズムを考えてみたいと思います。
001_003_005.PNG
標本平均を使うしかないことで、常に標本分散は、本来あるべき真の分散よりも小さくなってしまうのです。
この偏りを補正するために、不偏分散すなわち「偏りのない分散」を用い、その平方根をとった不偏標準偏差を使うこととなっています。

5
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?