はじめに
線形回帰はデータ分析において広く使用されている手法ですが、外れ値の存在によって大きな影響を受けることがあります。今回は外れ値に対処するために、ロバスト回帰の手法であるRANSAC(RANdom SAmple Consensus)モデル、MSAC(M-estimator SAmple Consensus)モデルについてまとめていきたいと思います。
RANSACモデルについて
皆様はRANSACモデルをご存じでしょうか。
ランダムにサンプルを選択し、そのサンプルから線形モデルを推定し、このプロセスを繰り返すことで、最も多くのデータ点をサポートするモデルを最終的に選択します。
また、外れ値の影響を受けない頑健(ロバスト)なモデルを作成することができます。
MSACモデルについて
では、MSACモデルはどうでしょうか。
こちらのモデルについて調査をしていましたが、情報の少なさには驚きました。
そのため、他の方々がMSACモデルについて調べたときの手助けになればと思い、今回記事にしようと思います。
まず、MSACモデルとはなんぞやと。
端的に言えば、MSACモデルはRANSACモデルの改良版です。
外れ値に対する重みづけを導入することで、外れ値の影響をより柔軟に制御することができるようになるとのことです。
RANSACモデルでは、データ点が外れ値であるか否かの二値的に判断しますが、MSACモデルでは、残渣の大きさに応じて連続的に重みを調整することで、外れ値の影響を徐々に減らしながら線形モデルを推定することができます。
とても便利ですね。
MSACアルゴリズムについて
MSACアルゴリズムは以下の手順で実行されるようです。
- ランダムにサンプルを選択し、そのサンプルから線形モデルを推定する
- 推定されたモデルに対する各データ点の残渣を計算する
- 残渣に基づいて各データ点の重みを計算する(残渣が大きいほど重みが小さくなる)
- 重み付き最小二乗法を用いて、線形モデルを再推定する
- ステップ1~4を複数回繰り返し、最も良いモデルを選択する
MSACアルゴリズムには、いくつかの重要なパラメータがあります。
- min_samples:モデルを推定するために必要な最小サンプル数の割合
- max_trials:アルゴリズムの最大試行回数
- residual_threshold:残渣の閾値(この値を超える残渣を持つデータ点は外れ値とみなされる)
Pythonでの実装
scikit-learn
ライブラリのRANSACRegressor
を使用することで簡単に実装できます。
from sklearn.linear_model import RANSACRegressor
model = RANSACRegressor(min_samples = 0.5,
max_trials = 100,
loss = 'absolute_error',
random_state = 80,
residual_threshold = 2)
model.fit(X, y)
residual_threshold
がなければRANSACモデルになります。
残渣の閾値を設定するかしないかです。
実際にランダムなデータを作成して試してみましょう。
import numpy as np
from sklearn.linear_model import RANSACRegressor
import matplotlib.pyplot as plt
def generate_data(n_samples, n_outliers, random_state=0):
"""
ランダムなデータと外れ値を生成する関数
Parameters:
n_samples (int): 生成するデータの数
n_outliers (int): 外れ値の数
random_state (int): 乱数生成器のシード値(デフォルトは0)
Returns:
X (array): 説明変数の行列(n_samples, 1)
y (array): 目的変数のベクトル(n_samples,)
"""
np.random.seed(random_state)
X = np.random.rand(n_samples, 1) * 10
y = 2 X.ravel() + 1 + np.random.randn(n_samples) 0.5
# 外れ値を追加
outlier_indices = np.random.choice(n_samples, n_outliers, replace=False)
y[outlier_indices] += np.random.randn(n_outliers) * 10
return X, y
def msac(X, y, min_samples=0.5, max_trials=100, residual_threshold=None):
"""
M-estimator SAmple Consensus(MSAC)を使用して線形回帰を行う関数
Parameters:
X (array-like): 説明変数の行列(n_samples, n_features)
y (array-like): 目的変数のベクトル(n_samples,)
min_samples (float): モデルを推定するために必要な最小サンプル数の割合(デフォルトは0.5)
max_trials (int): RANSACの最大試行回数(デフォルトは100)
residual_threshold (float): 残差の閾値(デフォルトはNone)
Returns:
coef (array): 回帰係数
intercept (float): 切片
"""
# RANSACRegressorを使用してMSACを実行
model = RANSACRegressor(min_samples=min_samples,
max_trials=max_trials,
loss='squared_loss',
random_state=80,
residual_threshold=residual_threshold)
model.fit(X, y)
coef = model.estimator_.coef_
intercept = model.estimator_.intercept_
return model, coef, intercept
# ランダムデータの生成
n_samples = 100
n_outliers = 10
X, y = generate_data(n_samples, n_outliers, random_state=42)
# MSACを使用して線形回帰
model, coef, intercept = msac(X, y, min_samples=0.5, max_trials=100, residual_threshold=2)
print("回帰係数:", coef)
print("切片:", intercept)
# 可視化
plt.figure(figsize=(8, 6))
plt.scatter(X[model.inlier_mask_], y[model.inlier_mask_], color='blue')
plt.plot(X, model.predict(X), color='red', label='MSAC')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()
しっかり線形を捉えていますね。
外れ値の影響はないようです。
まとめ
外れ値が存在するデータセットで線形モデルを推定したいといった場面に遭遇した際は、是非RANSACモデルかMSACモデルを試してみてください。
他にも、M推定法やTheil-Sen推定などのアルゴリズムもありますので興味がある方は調べてみてください。
それでは!!!