1
1

【Python】statisticsモジュールの基礎知識

Posted at

はじめに

Pythonのstatisticsモジュールは、基本的な統計計算を簡単に行うための便利なツールです。
このモジュールはPythonの標準ライブラリに含まれており、特にデータサイエンスや統計学に入門する際に非常に役立ちます。

statisticsモジュールのインポート

まずはstatisticsモジュールをインポートする方法から始めましょう。

import statistics

1. mean(): 平均値

mean()関数は、リストやタプルなどのシーケンスから平均値を計算します。

data = [1, 2, 3, 4, 5]
mean_value = statistics.mean(data)
print(mean_value)  # 出力: 3

2. median(): 中央値

median()関数は、データセットの中央値を計算します。中央値とは、データを小さい順に並べたときの真ん中の値です。

data = [1, 3, 5, 7, 9]
median_value = statistics.median(data)
print(median_value)  # 出力: 5

データの個数が偶数の場合、中央値は中央の2つの値の平均になります。

data = [1, 3, 5, 7]
median_value = statistics.median(data)
print(median_value)  # 出力: 4

3. mode(): 最頻値

mode()関数は、データセット内で最も頻繁に出現する値(最頻値)を返します。

data = [1, 2, 2, 3, 4]
mode_value = statistics.mode(data)
print(mode_value)  # 出力: 2

4. stdev(): 標準偏差

stdev()関数は、データセットの標準偏差を計算します。標準偏差はデータの散らばり具合を示す指標です。

data = [1, 2, 3, 4, 5]
stdev_value = statistics.stdev(data)
print(stdev_value)  # 出力: 約1.58

5. variance(): 分散

variance()関数は、データセットの分散を計算します。分散は、各データが平均からどれだけ離れているかを示す指標です。

data = [1, 2, 3, 4, 5]
variance_value = statistics.variance(data)
print(variance_value)  # 出力: 約2.5

6. harmonic_mean(): 調和平均

harmonic_mean()関数は、データセットの調和平均を計算します。調和平均は、特に速度や密度の平均を計算する際に有用です。

data = [1, 2, 3, 4, 5]
harmonic_mean_value = statistics.harmonic_mean(data)
print(harmonic_mean_value)  # 出力: 約2.189

7. geometric_mean(): 幾何平均

geometric_mean()関数は、データセットの幾何平均を計算します。
幾何平均は、成長率やリターンの平均を計算する場合に適しています。

data = [1, 2, 3, 4, 5]
geometric_mean_value = statistics.geometric_mean(data)
print(geometric_mean_value)  # 出力: 約2.605

8. pstdev(): 母集団標準偏差

pstdev()関数は、データセット全体が母集団であると仮定して標準偏差を計算します。
stdev()関数とは異なり、分母にはデータ数全体(n)を使用します。

data = [1, 2, 3, 4, 5]
pstdev_value = statistics.pstdev(data)
print(pstdev_value)  # 出力: 約1.414

9. pvariance(): 母集団分散

pvariance()関数は、データセット全体が母集団であると仮定して分散を計算します。
variance()関数とは異なり、分母にはデータ数全体(n)を使用します。

data = [1, 2, 3, 4, 5]
pvariance_value = statistics.pvariance(data)
print(pvariance_value)  # 出力: 2.0

10. quantiles(): 分位点

quantiles()関数は、データセットを等しい部分に分割するための分位点を計算します。
デフォルトでは四分位点(4つの部分に分割する点)を計算しますが、任意の分割数を指定することもできます。

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
quantiles_value = statistics.quantiles(data, n=4)
print(quantiles_value)  # 出力: [2.75, 5.5, 8.25]

11. multimode(): 複数の最頻値

multimode()関数は、データセット内で最も頻繁に出現する値が複数ある場合、それらすべてをリストとして返します。

data = [1, 1, 2, 2, 3]
multimode_value = statistics.multimode(data)
print(multimode_value)  # 出力: [1, 2]

まとめ

statisticsモジュールを利用することで、Pythonを使って基本的な統計解析を手軽に行うことができます。
データサイエンスや分析業務を始めるにあたって、まずはこれらの関数をマスターすることで、より高度な分析へとステップアップすることができるでしょう。

Pythonでの統計計算に興味がある方は、ぜひstatisticsモジュールを試してみてください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1