More than 1 year has passed since last update.

【Python】statisticsモジュールの基礎知識

Posted at 2024-08-22

はじめに

Pythonのstatisticsモジュールは、基本的な統計計算を簡単に行うための便利なツールです。
このモジュールはPythonの標準ライブラリに含まれており、特にデータサイエンスや統計学に入門する際に非常に役立ちます。

まずはstatisticsモジュールをインポートする方法から始めましょう。

import statistics

mean()関数は、リストやタプルなどのシーケンスから平均値を計算します。

data = [1, 2, 3, 4, 5]
mean_value = statistics.mean(data)
print(mean_value)  # 出力: 3

median()関数は、データセットの中央値を計算します。中央値とは、データを小さい順に並べたときの真ん中の値です。

data = [1, 3, 5, 7, 9]
median_value = statistics.median(data)
print(median_value)  # 出力: 5

データの個数が偶数の場合、中央値は中央の2つの値の平均になります。

data = [1, 3, 5, 7]
median_value = statistics.median(data)
print(median_value)  # 出力: 4

mode()関数は、データセット内で最も頻繁に出現する値（最頻値）を返します。

data = [1, 2, 2, 3, 4]
mode_value = statistics.mode(data)
print(mode_value)  # 出力: 2

stdev()関数は、データセットの標準偏差を計算します。標準偏差はデータの散らばり具合を示す指標です。

data = [1, 2, 3, 4, 5]
stdev_value = statistics.stdev(data)
print(stdev_value)  # 出力: 約1.58

variance()関数は、データセットの分散を計算します。分散は、各データが平均からどれだけ離れているかを示す指標です。

data = [1, 2, 3, 4, 5]
variance_value = statistics.variance(data)
print(variance_value)  # 出力: 約2.5

harmonic_mean()関数は、データセットの調和平均を計算します。調和平均は、特に速度や密度の平均を計算する際に有用です。

data = [1, 2, 3, 4, 5]
harmonic_mean_value = statistics.harmonic_mean(data)
print(harmonic_mean_value)  # 出力: 約2.189

geometric_mean()関数は、データセットの幾何平均を計算します。
幾何平均は、成長率やリターンの平均を計算する場合に適しています。

data = [1, 2, 3, 4, 5]
geometric_mean_value = statistics.geometric_mean(data)
print(geometric_mean_value)  # 出力: 約2.605

pstdev()関数は、データセット全体が母集団であると仮定して標準偏差を計算します。
stdev()関数とは異なり、分母にはデータ数全体（n）を使用します。

data = [1, 2, 3, 4, 5]
pstdev_value = statistics.pstdev(data)
print(pstdev_value)  # 出力: 約1.414

pvariance()関数は、データセット全体が母集団であると仮定して分散を計算します。
variance()関数とは異なり、分母にはデータ数全体（n）を使用します。

data = [1, 2, 3, 4, 5]
pvariance_value = statistics.pvariance(data)
print(pvariance_value)  # 出力: 2.0

quantiles()関数は、データセットを等しい部分に分割するための分位点を計算します。
デフォルトでは四分位点（4つの部分に分割する点）を計算しますが、任意の分割数を指定することもできます。

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
quantiles_value = statistics.quantiles(data, n=4)
print(quantiles_value)  # 出力: [2.75, 5.5, 8.25]

multimode()関数は、データセット内で最も頻繁に出現する値が複数ある場合、それらすべてをリストとして返します。

data = [1, 1, 2, 2, 3]
multimode_value = statistics.multimode(data)
print(multimode_value)  # 出力: [1, 2]

statisticsモジュールを利用することで、Pythonを使って基本的な統計解析を手軽に行うことができます。
データサイエンスや分析業務を始めるにあたって、まずはこれらの関数をマスターすることで、より高度な分析へとステップアップすることができるでしょう。

Pythonでの統計計算に興味がある方は、ぜひstatisticsモジュールを試してみてください。