IQR法を使用した外れ値検出の手法とPythonでの実装
IQR(四分位範囲)法は、データセットの分布に基づいて外れ値を特定するための手法で、データの四分位数を計算し、通常の範囲から大きく外れたデータポイントを検出します。本記事では、IQR法を用いた外れ値検出の手順とPythonでの実装例について詳しく解説します。
目次
IQR法による外れ値検出の手順
IQR法は、四分位範囲(IQR)を利用して外れ値を検出します。以下の手順に基づいて、データから外れ値を見つけることができます。
-
データの四分位数(Q1, Q2, Q3)を計算する
- Q1(第1四分位数)はデータの下位25%点です。
- Q2(第2四分位数)は中央値(データの中央の値)です。
- Q3(第3四分位数)はデータの上位25%点です。
-
IQR(四分位範囲)を計算する
[
\text{IQR} = Q3 - Q1
] -
外れ値の範囲を定義する
- 下限: ( Q1 - 1.5 \times \text{IQR} )
- 上限: ( Q3 + 1.5 \times \text{IQR} )
-
下限未満または上限を超えるデータポイントを外れ値として識別する
Pythonでの実装例
以下のPythonコードは、IQR法を使用して外れ値を検出する具体的な方法を示しています。サンプルデータとして正常データと意図的に外れ値を含むデータセットを使用します。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# サンプルデータの生成
np.random.seed(42)
data = np.concatenate([
np.random.normal(100, 10, 1000), # 正常データ
np.random.normal(50, 5, 10), # 下側の外れ値
np.random.normal(150, 5, 10) # 上側の外れ値
])
# IQR法による外れ値の検出
def detect_outliers_iqr(data):
q1, q3 = np.percentile(data, [25, 75])
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr)
upper_bound = q3 + (1.5 * iqr)
outliers = np.where((data < lower_bound) | (data > upper_bound))[0]
return outliers, lower_bound, upper_bound
# 外れ値の検出
outlier_indices, lower_bound, upper_bound = detect_outliers_iqr(data)
print(f"検出された外れ値の数: {len(outlier_indices)}")
print(f"下限: {lower_bound:.2f}")
print(f"上限: {upper_bound:.2f}")
# 結果の可視化
plt.figure(figsize=(12, 6))
plt.scatter(range(len(data)), data, c='blue', alpha=0.5)
plt.scatter(outlier_indices, data[outlier_indices], c='red', label='Outliers')
plt.axhline(y=lower_bound, color='g', linestyle='--', label='Lower bound')
plt.axhline(y=upper_bound, color='g', linestyle='--', label='Upper bound')
plt.xlabel('Data points')
plt.ylabel('Values')
plt.title('IQR Method for Outlier Detection')
plt.legend()
plt.show()
# 外れ値の詳細
outliers_df = pd.DataFrame({
'Index': outlier_indices,
'Value': data[outlier_indices]
})
print("\n外れ値の詳細:")
print(outliers_df)
動作の流れ
- サンプルデータを生成: 正常なデータと意図的な外れ値を含んだデータセットを作成します。
-
IQR法を使用した外れ値の検出:
detect_outliers_iqr
関数で外れ値を検出し、検出された外れ値の数と閾値(下限、上限)を表示します。 - データの可視化: 箱ひげ図とIQR法に基づく範囲(下限、上限)を視覚的に表示し、外れ値を赤で強調表示します。
- 外れ値の詳細表示: 外れ値のインデックスと値をDataFrameにして表示します。
注意点と考慮事項
-
データの分布
- IQR法は、データが正規分布に近い場合に有効です。極端に偏った分布や多峰性の分布では、誤って外れ値を検出する可能性があります。
-
閾値の調整
- 通常、IQR法では1.5を係数として使用しますが、データによっては2.0 * IQRや1.0 * IQRに変更することで、外れ値検出の厳しさを調整できます。
-
サンプルサイズ
- 小さなサンプルサイズの場合、IQR法の信頼性が低下することがあります。信頼性を確保するためには、十分なデータ量が必要です。
-
多変量データ
- 上記の実装例は一変量データに対するものです。多変量データの場合には、各変数ごとに個別にIQR法を適用するか、マハラノビス距離などの多変量手法を検討する必要があります。
-
ドメイン知識の活用
- 外れ値は、必ずしも無視するべきデータとは限りません。ドメイン知識を活用して、外れ値が重要な情報を持つ可能性があるかを判断することが必要です。
-
他の手法との組み合わせ
- IQR法単独でなく、Z-スコア法や機械学習の異常検知手法と併用することで、より信頼性の高い外れ値検出が可能になります。
まとめ
IQR法を用いた外れ値検出は、データ分析の初期段階において非常に役立つツールです。Pythonを用いた実装も比較的簡単であり、データの分布を理解しつつ異常なデータポイントを特定するために広く使用されています。ただし、IQR法がすべてのデータセットに適しているわけではないため、データの性質や分析目的に応じて適切な方法を選択することが重要です。