はじめに
機械学習モデルを評価することは、モデルの性能を正確に理解し、改善するために重要です。この技術ブログでは、回帰、分類、クラスタリングの異なるタイプの機械学習モデルを評価するための主要な評価指標を解説していきます。
回帰の評価指標
平均二乗誤差 (MSE)
MSEは予測誤差の平均値の二乗を示します。値が低いほど良いです。一般的な目標は、MSEを最小化することです。しかし、具体的なデータや問題によって、許容できるMSEの範囲は異なります。通常、0に近い値が望ましいです。
回帰モデルの性能を評価するために使用され、以下の数式で表されます。
MSE = Σ(yᵢ - ŷᵢ)² / n
ここで、yᵢ は実際の値、ŷᵢ は予測値、n はデータセット内の行数(総数)です。
Pythonコードを使ってMSEを計算する方法:
from sklearn.metrics import mean_squared_error
y_true = [3.0, 2.5, 4.0, 5.1] # 実際の値
y_pred = [2.8, 2.7, 3.8, 5.0] # 予測値
mse = mean_squared_error(y_true, y_pred)
print("平均二乗誤差 (MSE):", mse)
決定係数 (R²)
R²はモデルの適合度を示します。1に近いほど、モデルがデータに適合していることを示します。通常、R²が0.7以上であれば、良いモデルとみなすことができます。
回帰モデルのデータへの適合度を評価し、以下の数式で表されます。
R² = 1 - (Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)²)
ここで、yᵢ は実際の値、ŷᵢ は予測値、ȳ は実際の値の平均です。
Pythonコードを使ってR²を計算する方法:
from sklearn.metrics import r2_score
y_true = [3.0, 2.5, 4.0, 5.1] # 実際の値
y_pred = [2.8, 2.7, 3.8, 5.0] # 予測値
r2 = r2_score(y_true, y_pred)
print("決定係数 (R²):", r2)
分類の評価指標
正解率 (Accuracy)
分類モデルの全体的な正確さを評価するために使用され、以下の数式で表されます。
Accuracy = (TP + TN) / (TP + TN + FP + FN)
ここで、TPは真陽性、TNは真陰性、FPは偽陽性、FNは偽陰性です。
Pythonコードを使って正解率を計算する方法:
from sklearn.metrics import accuracy_score
y_true = [1, 0, 1, 1, 0, 0] # 実際のクラスラベル
y_pred = [1, 1, 0, 1, 0, 1] # 予測されたクラスラベル
accuracy = accuracy_score(y_true, y_pred)
print("正解率 (Accuracy):", accuracy)
適合率 (Precision) と再現率 (Recall)
適合率と再現率は、分類モデルの詳細な性能を評価するために使用されます。特にクラスの不均衡なデータセットの場合に重要であり、適合率と再現率のバランスを取ることが目標です。F1スコアが高い場合が望ましく通常、F1スコアが0.7以上であれば、良いモデルと言えます。
適合率 (Precision):
Precision = TP / (TP + FP)
再現率 (Recall):
Recall = TP / (TP + FN)
Pythonで適合率と再現率を計算する方法:
from sklearn.metrics import precision_score, recall_score
y_true = [1, 0, 1, 1, 0, 0] # 実際のクラスラベル
y_pred = [1, 1, 0, 1, 0, 1] # 予測されたクラスラベル
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
print("適合率 (Precision):", precision)
print("再現率 (Recall):", recall)
F1スコア (F1 Score)
F1スコアは適合率と再現率の調和平均で、モデルのバランスを評価します。
F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
PythonでF1スコアを計算する方法:
from sklearn.metrics import f1_score
y_true = [1, 0, 1, 1, 0, 0] # 実際のクラスラベル
y_pred = [1, 1, 0, 1, 0, 1] # 予測されたクラスラベル
f1 = f1_score(y_true, y_pred)
print("F1スコア (F1 Score):", f1)
クラスタリングの評価指標
シルエット係数 (Silhouette Coefficient)
シルエット係数はクラスタリングの質を評価し、1に近いほど、クラスタリングが良いとされます。通常、シルエット係数が0.5以上であれば、良いクラスタリングと言えます。
from sklearn.metrics import silhouette_score
cluster_labels = [0, 1, 1, 2, 0, 2] # クラスタリング結果
data = [[2.0, 3.0], [4.0, 5.0], [3.5, 4.0], [1.0, 1.5], [2.5, 2.0], [1.5, 2.5]] # データ点の特徴量
silhouette = silhouette_score(data, cluster_labels)
print("シルエット係数 (Silhouette Coefficient):", silhouette)
Davies-Bouldin Index
Davies-Bouldin Indexはクラスタ間の距離とクラスタ内のデータ点の散らばりを考慮してクラスタリングを評価します。値が低いほど良いですが、具体的な目標値は問題によって異なります。
from sklearn.metrics import davies_bouldin_score
cluster_labels = [0, 1, 1, 2, 0, 2] # クラスタリング結果
data = [[2.0, 3.0], [4.0, 5.0], [3.5, 4.0], [1.0, 1.5], [2.5, 2.0], [1.5, 2.5]] # データ点の特徴量
db_index = davies_bouldin_score(data, cluster_labels)
print("Davies-Bouldin Index:", db_index)
最後に
これらの評価指標を使用して、機械学習モデルの性能を評価し、モデルの改善に役立てましょう。適切な指標の選択は、問題の性質に依存しますので、注意深く選ぶことが重要です。