はじめに
Pythonのstatisticsモジュールは、基本的な統計計算を簡単に行うための便利なツールです。
このモジュールはPythonの標準ライブラリに含まれており、特にデータサイエンスや統計学に入門する際に非常に役立ちます。
statisticsモジュールのインポート
まずはstatisticsモジュールをインポートする方法から始めましょう。
import statistics
1. mean(): 平均値
mean()関数は、リストやタプルなどのシーケンスから平均値を計算します。
data = [1, 2, 3, 4, 5]
mean_value = statistics.mean(data)
print(mean_value) # 出力: 3
2. median(): 中央値
median()関数は、データセットの中央値を計算します。中央値とは、データを小さい順に並べたときの真ん中の値です。
data = [1, 3, 5, 7, 9]
median_value = statistics.median(data)
print(median_value) # 出力: 5
データの個数が偶数の場合、中央値は中央の2つの値の平均になります。
data = [1, 3, 5, 7]
median_value = statistics.median(data)
print(median_value) # 出力: 4
3. mode(): 最頻値
mode()関数は、データセット内で最も頻繁に出現する値(最頻値)を返します。
data = [1, 2, 2, 3, 4]
mode_value = statistics.mode(data)
print(mode_value) # 出力: 2
4. stdev(): 標準偏差
stdev()関数は、データセットの標準偏差を計算します。標準偏差はデータの散らばり具合を示す指標です。
data = [1, 2, 3, 4, 5]
stdev_value = statistics.stdev(data)
print(stdev_value) # 出力: 約1.58
5. variance(): 分散
variance()関数は、データセットの分散を計算します。分散は、各データが平均からどれだけ離れているかを示す指標です。
data = [1, 2, 3, 4, 5]
variance_value = statistics.variance(data)
print(variance_value) # 出力: 約2.5
6. harmonic_mean(): 調和平均
harmonic_mean()関数は、データセットの調和平均を計算します。調和平均は、特に速度や密度の平均を計算する際に有用です。
data = [1, 2, 3, 4, 5]
harmonic_mean_value = statistics.harmonic_mean(data)
print(harmonic_mean_value) # 出力: 約2.189
7. geometric_mean(): 幾何平均
geometric_mean()関数は、データセットの幾何平均を計算します。
幾何平均は、成長率やリターンの平均を計算する場合に適しています。
data = [1, 2, 3, 4, 5]
geometric_mean_value = statistics.geometric_mean(data)
print(geometric_mean_value) # 出力: 約2.605
8. pstdev(): 母集団標準偏差
pstdev()関数は、データセット全体が母集団であると仮定して標準偏差を計算します。
stdev()関数とは異なり、分母にはデータ数全体(n)を使用します。
data = [1, 2, 3, 4, 5]
pstdev_value = statistics.pstdev(data)
print(pstdev_value) # 出力: 約1.414
9. pvariance(): 母集団分散
pvariance()関数は、データセット全体が母集団であると仮定して分散を計算します。
variance()関数とは異なり、分母にはデータ数全体(n)を使用します。
data = [1, 2, 3, 4, 5]
pvariance_value = statistics.pvariance(data)
print(pvariance_value) # 出力: 2.0
10. quantiles(): 分位点
quantiles()関数は、データセットを等しい部分に分割するための分位点を計算します。
デフォルトでは四分位点(4つの部分に分割する点)を計算しますが、任意の分割数を指定することもできます。
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
quantiles_value = statistics.quantiles(data, n=4)
print(quantiles_value) # 出力: [2.75, 5.5, 8.25]
11. multimode(): 複数の最頻値
multimode()関数は、データセット内で最も頻繁に出現する値が複数ある場合、それらすべてをリストとして返します。
data = [1, 1, 2, 2, 3]
multimode_value = statistics.multimode(data)
print(multimode_value) # 出力: [1, 2]
まとめ
statisticsモジュールを利用することで、Pythonを使って基本的な統計解析を手軽に行うことができます。
データサイエンスや分析業務を始めるにあたって、まずはこれらの関数をマスターすることで、より高度な分析へとステップアップすることができるでしょう。
Pythonでの統計計算に興味がある方は、ぜひstatisticsモジュールを試してみてください。