はじめに
ML評価指標全般について、自分向けの覚え書きをまとめます。
1. 評価指標とは何か
1.1 評価指標の定義と重要性
- 評価指標とは、ビジネス目標やプロジェクトの成果を定量的に測定するための基準である
- データサイエンスプロジェクトの成否を判断する客観的な尺度として機能する
- ステークホルダー間のコミュニケーションツールとしての役割を果たす
- 適切な評価指標の設定は、プロジェクトの方向性を決定づける最も重要な意思決定である
- 誤った指標設定は、技術的に優れたモデルでもビジネス価値を生まない結果を招く
- 評価指標はプロジェクトの初期段階で明確化し、全関係者の合意を得る必要がある
1.2 ビジネス指標と機械学習指標のギャップ
- ビジネス指標は売上、利益、顧客満足度など経営判断に直結する指標である
- 定量化が困難な場合が多く、複数要因の複合的な結果として現れる
- 測定に時間がかかり、リアルタイムでのフィードバックが得られない
- 機械学習指標は精度、再現率、AUCなど技術的な性能を測る指標である
- 数学的に厳密な定義があり、計算可能で再現性が高い
- モデルの改善方向を示すが、ビジネス成果との因果関係が不明確な場合がある
- 両者の架け橋となる中間指標の設計が、データサイエンスプロジェクト成功の鍵である
- 機械学習モデルの出力が実際のビジネス成果にどう影響するかを定量化する
- A/Bテストなどの実験デザインを通じて因果関係を検証する必要がある
1.3 評価指標設計のプロセス
- ビジネス目標の明確化から始め、測定可能な形に分解していく
- 最終的なビジネス成果を定義する(例:年間売上10%増加)
- 中間的な代理指標を設定する(例:顧客エンゲージメント率、コンバージョン率)
- 機械学習モデルが直接最適化できる技術指標を選択する
- 各階層の指標間の関係性を定量的に把握する
- 相関分析や回帰分析を用いて指標間の影響度を測定する
- 因果推論の手法を活用し、見せかけの相関と真の因果を区別する
- 指標の測定可能性と更新頻度を考慮した実装計画を立てる
- データ収集基盤の整備状況を確認する
- 指標の計算コストとビジネス価値のトレードオフを評価する
2. 分類問題の評価指標
2.1 混同行列の基礎
- 混同行列は分類モデルの予測結果を体系的に整理する2×2の表である
- True Positive(TP):正しく正例と予測した数
- False Positive(FP):誤って正例と予測した数(第一種過誤)
- True Negative(TN):正しく負例と予測した数
- False Negative(FN):誤って負例と予測した数(第二種過誤)
- 混同行列から導出される基本指標が、すべての評価指標の基礎となる
- 正解率(Accuracy) = (TP + TN) / (TP + TN + FP + FN)
- エラー率(Error Rate) = (FP + FN) / (TP + TN + FP + FN)
- クラス不均衡問題では、正解率は適切な評価指標として機能しない
- 99%が負例のデータセットでは、すべて負例と予測するだけで99%の正解率を達成する
- ビジネス上重要な少数クラスの予測性能が正解率には反映されない
2.2 適合率と再現率
- 適合率(Precision)は、正例と予測したもののうち実際に正例だった割合である
- Precision = TP / (TP + FP)
- False Positiveのコストが高い場合に重視すべき指標である
- スパムフィルタや不正検知など、誤検知による顧客体験悪化を避けたい場合に適用する
- 再現率(Recall)は、実際の正例のうち正しく検出できた割合である
- Recall = TP / (TP + FN)
- False Negativeのコストが高い場合に重視すべき指標である
- がん検診や故障予知など、見逃しによる重大な損失を防ぎたい場合に適用する
- 適合率と再現率はトレードオフの関係にあり、同時に最大化できない
- 閾値を下げると再現率は向上するが適合率は低下する
- 閾値を上げると適合率は向上するが再現率は低下する
- ビジネス要件に応じて両者のバランスを決定する必要がある
2.3 F値とその変種
- F1スコアは適合率と再現率の調和平均であり、両者のバランスを評価する
- F1 = 2 × (Precision × Recall) / (Precision + Recall)
- 調和平均を用いることで、どちらか一方が極端に低い場合にスコアが大きく低下する
- クラス不均衡があっても比較的安定した評価が可能である
- Fβスコアは適合率と再現率の重み付けを調整できる一般化形式である
- Fβ = (1 + β²) × (Precision × Recall) / (β² × Precision + Recall)
- β > 1の場合は再現率を重視し、β < 1の場合は適合率を重視する
- ビジネスコンテキストに応じてβの値を決定する
- マクロ平均F1とマイクロ平均F1は多クラス分類における異なる集約方法である
- マクロ平均は各クラスのF1を算術平均し、少数クラスも平等に扱う
- マイクロ平均は全クラスのTP、FP、FNを合計してからF1を計算し、多数クラスの影響が大きい
2.4 ROC曲線とAUC
- ROC曲線は横軸にFPR、縦軸にTPRをプロットした曲線である
- TPR(True Positive Rate) = Recall = TP / (TP + FN)
- FPR(False Positive Rate) = FP / (FP + TN)
- 閾値を変化させたときのモデルの性能を可視化する
- AUC(Area Under the Curve)はROC曲線下の面積であり、0.5から1.0の値をとる
- AUC = 0.5はランダム予測と同等の性能を示す
- AUC = 1.0は完全な分類性能を示す
- クラス不均衡に対してロバストな評価指標である
- AUCはランダムに選んだ正例と負例のペアについて、正例のスコアが高い確率を表す
- 順位相関に基づく評価であり、スコアの絶対値ではなく順序を評価する
- 閾値に依存しない評価が可能であり、モデル比較に適している
- ただし、特定の閾値での運用を前提とする場合、その閾値での性能を別途評価すべきである
2.5 PR曲線とAP
- PR曲線(Precision-Recall曲線)は横軸にRecall、縦軸にPrecisionをプロットした曲線である
- クラス不均衡が大きい場合、ROC曲線よりも有用な評価を提供する
- 正例の検出性能に焦点を当て、負例の多さに影響されない
- AP(Average Precision)はPR曲線下の面積の近似値である
- Recallの各値におけるPrecisionの加重平均として計算される
- 情報検索や物体検出など、正例の順位が重要なタスクで広く使用される
- ROC-AUCとPR-AUCの使い分けは、クラス不均衡の程度とビジネス要件で決定する
- クラスバランスが取れている場合はROC-AUCが適している
- 極端なクラス不均衡がある場合はPR-AUCの方が性能差を明確に示す
- 負例の正しい除外よりも正例の検出が重要な場合はPR曲線を優先する
2.6 対数損失
- 対数損失(Log Loss)は予測確率と真のラベルの乖離を測定する指標である
- Log Loss = -1/N × Σ(y × log(p) + (1-y) × log(1-p))
- yは真のラベル(0または1)、pは予測確率である
- 確率的な予測の質を評価し、確信度の高い誤予測に大きなペナルティを与える
- 0.9の確率で予測して外れた場合、0.6の確率で外れた場合より大きく罰せられる
- 適切にキャリブレーションされた確率値の出力が求められる場合に適用する
- 対数損失は微分可能であり、勾配降下法による最適化に適している
- ロジスティック回帰やニューラルネットワークの学習目的関数として使用される
- AUCやF1スコアは微分不可能であり、直接最適化できない
2.7 ビジネスコストを考慮した評価
- 混同行列の各要素に異なるコストを割り当てるコスト行列を定義する
- FPのコスト:誤検知による対応コスト(人件費、顧客不満など)
- FNのコスト:見逃しによる損失(機会損失、事故リスクなど)
- TPのコスト:正しい検知による利益(マイナスコストとして表現)
- TNのコスト:通常はゼロだが、検査コストを考慮する場合は設定する
- 期待コストを最小化する閾値を選択することで、ビジネス価値を最大化する
- Expected Cost = Cost(FP) × FP + Cost(FN) × FN - Profit(TP) × TP
- ROC曲線上で期待コストが最小となる動作点を選択する
- コストの定量化が困難な場合、感度分析を実施する
- コスト比率を変化させた場合の最適閾値の変化を確認する
- ステークホルダーとの議論を通じて許容可能なコスト範囲を特定する
3. 回帰問題の評価指標
3.1 平均絶対誤差(MAE)
- MAEは予測値と実測値の絶対誤差の平均である
- MAE = 1/N × Σ|y - ŷ|
- yは実測値、ŷは予測値である
- 外れ値の影響を受けにくく、解釈が直感的である
- 誤差の大きさを元のスケールで表現するため、ビジネス関係者に説明しやすい
- すべての誤差を等しく扱い、大きな誤差も小さな誤差も線形に評価する
- 微分可能でないため、勾配降下法による最適化には注意が必要である
- 絶対値関数は原点で微分不可能であり、特殊な最適化手法が求められる
- 実務では平滑化された損失関数(Huber損失など)が使用される場合がある
3.2 平均二乗誤差(MSE)と平均平方根誤差(RMSE)
- MSEは予測値と実測値の二乗誤差の平均である
- MSE = 1/N × Σ(y - ŷ)²
- 大きな誤差に対して二次的にペナルティを与える
- RMSEはMSEの平方根であり、元のスケールで誤差を表現する
- RMSE = √MSE
- MAEと同様に解釈しやすいが、大きな誤差をより重視する
- MSEは微分可能であり、最小二乗法の理論的基礎となっている
- 線形回帰やニューラルネットワークの学習で広く使用される
- 外れ値の影響を強く受けるため、前処理での外れ値除去が重要である
- MAEとRMSEの使い分けは、誤差の分布とビジネス要件で決定する
- すべての誤差を等しく扱いたい場合はMAEを選択する
- 大きな誤差を避けることが重要な場合はRMSEを選択する
3.3 決定係数(R²)
- R²は目的変数の分散のうち、モデルが説明できる割合を示す
- R² = 1 - (Σ(y - ŷ)² / Σ(y - ȳ)²)
- ȳは目的変数の平均値である
- R²は0から1の値をとり、1に近いほど良いモデルである
- R² = 1は完全な予測を示す
- R² = 0は平均値による予測と同等の性能を示す
- 負の値は平均値による予測よりも悪い性能を示す
- R²は説明変数の数が増えると必ず増加するため、比較には注意が必要である
- 調整済みR²(Adjusted R²)は説明変数の数を考慮した指標である
- Adjusted R² = 1 - ((1 - R²) × (N - 1) / (N - p - 1))
- pは説明変数の数、Nはサンプル数である
3.4 平均絶対パーセント誤差(MAPE)
- MAPEは予測誤差を実測値に対する割合で表現する
- MAPE = 1/N × Σ|y - ŷ| / |y| × 100(%)
- スケールに依存しない相対的な評価が可能である
- 異なるスケールのデータセット間でモデル性能を比較できる
- 売上予測と需要予測など、単位が異なるタスクの性能を統一的に評価する
- ビジネス関係者にとってパーセンテージ表記は理解しやすい
- 実測値がゼロまたはゼロに近い場合、MAPEは定義できないか極端に大きくなる
- sMAPE(symmetric MAPE)など、改良版の指標が提案されている
- sMAPE = 100/N × Σ|y - ŷ| / ((|y| + |ŷ|) / 2)
3.5 分位点損失
- 分位点損失は特定の分位点での予測誤差を評価する非対称な損失関数である
- 過小予測と過大予測に異なるペナルティを与える
- τ分位点損失:L(y, ŷ) = τ × (y - ŷ) if y ≥ ŷ, (1-τ) × (ŷ - y) if y < ŷ
- 中央値(τ=0.5)での予測は、MAEを最小化することと等価である
- 平均値予測(MSE最小化)と中央値予測(MAE最小化)は異なる
- 外れ値が多い場合、中央値予測の方がロバストである
- 在庫最適化や需要予測など、非対称なコストが存在する場合に有用である
- 過剰在庫と欠品のコストが異なる場合、適切なτを選択する
- 複数の分位点を予測することで、不確実性の範囲を表現できる
4. ランキング問題の評価指標
4.1 情報検索における評価の特性
- ランキング問題では、アイテムの絶対的な予測値よりも相対的な順序が重要である
- 検索エンジンやレコメンデーションシステムでは、上位に関連性の高いアイテムを配置する
- 予測スコアの絶対値よりも、スコアの順位が実際の関連度順と一致しているかを評価する
- ユーザーは通常、上位数件のみを閲覧するため、上位の精度が特に重要である
- Position Biasが存在し、下位のアイテムは閲覧されにくい
- 評価指標も上位の性能を重視する設計となっている
4.2 適合率@K (Precision@K)
- Precision@Kは上位K件のうち関連アイテムの割合を測定する
- Precision@K = (上位K件中の関連アイテム数) / K
- 簡潔で直感的に理解しやすい指標である
- Kの値はユーザーの閲覧行動やシステムの表示件数に基づいて設定する
- Precision@1は最も重要な一位の精度を評価する
- Precision@10は一画面に表示される程度の上位アイテムの精度を評価する
- 関連アイテムの総数を考慮しないため、網羅性の評価には不向きである
- 関連アイテムが100件ある場合でも、上位10件中5件が関連であればPrecision@10は50%である
- Recallと組み合わせて評価することで、網羅性も考慮できる
4.3 再現率@K (Recall@K)
- Recall@Kは全関連アイテムのうち上位K件に含まれる割合を測定する
- Recall@K = (上位K件中の関連アイテム数) / (全関連アイテム数)
- 網羅性を評価する指標である
- Kが全関連アイテム数より小さい場合、100%に到達できない
- 関連アイテムが20件あり、K=10の場合、最大でもRecall@10は50%である
- Kを大きくするとRecallは向上するが、Precisionは低下する傾向がある
- ユーザーが多くのアイテムを閲覧する前提がある場合に重視される
- 網羅的な情報収集が目的の専門家向けシステムでは重要である
- 一般消費者向けサービスでは、Precisionの方が重視される傾向がある
4.4 平均適合率(AP)と平均平均適合率(MAP)
- APは各関連アイテムが出現した位置でのPrecisionの平均である
- AP = (ΣPrecision@k × rel(k)) / (全関連アイテム数)
- rel(k)はk番目のアイテムが関連か否かの二値変数である
- APはランキング全体の質を単一の値で表現する
- 上位の関連アイテムほど高く評価される
- 関連アイテムが上位に集中している場合、APは高くなる
- MAPは複数のクエリに対するAPの平均である
- MAP = (ΣAP) / (クエリ数)
- 情報検索システム全体の性能を評価する標準的な指標である
- APとMAPは順序を重視するが、非関連アイテムの順序は無視する
- 関連アイテム間の順序のみが評価に影響する
- 非関連アイテムがどのように並んでいても、関連アイテムの位置が同じならAPは同じである
4.5 正規化割引累積利得(NDCG)
- DCG(Discounted Cumulative Gain)は各位置での関連度を位置で割り引いて合計する
- DCG@K = Σ(rel_i / log2(i + 1))
- rel_iはi番目のアイテムの関連度(多段階評価可能)である
- NDCGはDCGを理想的なランキングでのDCG(IDCG)で正規化する
- NDCG@K = DCG@K / IDCG@K
- 0から1の範囲の値をとり、1が理想的なランキングを示す
- NDCGは多段階の関連度評価に対応できる唯一の主要指標である
- 二値(関連/非関連)ではなく、5段階評価などの段階的な関連度を扱える
- 検索結果の品質を細かく区別して評価できる
- 対数による割引により、下位の性能差が上位よりも小さく評価される
- 1位と2位の差は、10位と11位の差よりも大きく影響する
- ユーザーの閲覧行動(上位ほど注意を向ける)をモデル化している
4.6 相互順位(MRR)
- MRRは最初の関連アイテムが出現する位置の逆数の平均である
- RR = 1 / (最初の関連アイテムの順位)
- MRR = (ΣRR) / (クエリ数)
- 最初の一件の関連性のみを評価し、それ以降は無視する
- ユーザーが最初の関連アイテムを見つけたら検索を終了すると仮定する
- Q&Aシステムなど、一つの正解を求めるタスクに適している
- 計算が簡単で解釈しやすいが、網羅性を全く評価しない
- 最初の関連アイテム以降の順序が評価に反映されない
- 複数の関連アイテムを必要とするタスクには不適切である
4.7 Learning to Rankにおける評価
- Pointwise手法は個別の関連度予測として評価する
- 回帰問題として定式化し、MSEやMAEで評価する
- ランキングの順序を直接最適化しないため、性能が劣る場合がある
- Pairwise手法はアイテム間の順序関係の正しさを評価する
- ランキングのすべてのペアについて順序が正しいかを判定する
- AUCと類似の考え方であり、順序相関を評価する
- Listwise手法はランキング全体を直接評価する
- NDCG、MAP、MRRなどのランキング指標を直接最適化する
- 微分可能な近似を用いて勾配降下法を適用する
- 各手法の選択は、タスクの性質と最適化の容易さのトレードオフで決定する
- Listwiseが理論的には最も適切だが、計算コストが高く最適化が難しい
- Pairwiseは実装が比較的容易で、多くの実用システムで採用されている
5. クラスタリングの評価指標
5.1 教師なし学習における評価の困難さ
- クラスタリングには明確な正解が存在しないため、評価が本質的に困難である
- 同じデータに対して、異なる観点から複数の妥当なクラスタリング結果が存在しうる
- タスクの目的に応じて適切な評価指標を選択する必要がある
- 内部評価指標と外部評価指標という2つのアプローチが存在する
- 内部評価指標はクラスタリング結果自体の性質を評価する
- 外部評価指標は既知のラベル(もし利用可能であれば)との一致度を評価する
5.2 内部評価指標
5.2.1 シルエット係数
- シルエット係数は各データポイントの所属クラスタの適切さを-1から1で評価する
- s(i) = (b(i) - a(i)) / max(a(i), b(i))
- a(i)は同一クラスタ内の他点との平均距離である
- b(i)は最も近い他クラスタの点との平均距離である
- 値が1に近いほど適切にクラスタリングされている
- 正の値は所属クラスタ内の凝集度が高く、他クラスタとの分離度も高いことを示す
- 負の値は誤ったクラスタに割り当てられている可能性を示す
- 全データポイントのシルエット係数の平均が、クラスタリング全体の評価となる
- クラスタ数の決定にも使用できる
- 異なるクラスタ数でクラスタリングを実行し、シルエット係数が最大となる数を選択する
5.2.2 Davies-Bouldin指数
- Davies-Bouldin指数はクラスタの凝集度と分離度を総合的に評価する
- DB = 1/K × Σmax((s_i + s_j) / d(c_i, c_j))
- s_iはクラスタiの平均クラスタ内距離、d(c_i, c_j)はクラスタ中心間の距離である
- 値が小さいほど良いクラスタリングを示す
- クラスタ内の凝集度が高く、クラスタ間の分離度が高い場合に小さくなる
- シルエット係数と異なり、クラスタ中心を明示的に使用する
- K-meansなど、クラスタ中心が明確に定義できる手法の評価に適している
- 階層的クラスタリングや密度ベースクラスタリングでは解釈が難しい場合がある
5.2.3 Calinski-Harabasz指数
- Calinski-Harabasz指数はクラスタ間分散とクラスタ内分散の比を評価する
- CH = (クラスタ間分散 / クラスタ内分散) × ((N - K) / (K - 1))
- Nはデータ点数、Kはクラスタ数である
- 値が大きいほど良いクラスタリングを示す
- クラスタが密集していて互いに離れているほど大きくなる
- ANOVAのF統計量と類似の考え方である
- 計算が高速であり、大規模データにも適用しやすい
- データ点ごとの計算(シルエット係数)よりも効率的である
- クラスタ数の決定にも使用できる
5.3 外部評価指標
5.3.1 調整ランド指数(ARI)
- ランド指数は、データ点のペアについて両方のクラスタリングで同じ扱いになっている割合を測定する
- RI = (同一クラスタに属するペアの一致数 + 異なるクラスタに属するペアの一致数) / 全ペア数
- 調整ランド指数は偶然による一致を補正する
- ARI = (RI - 期待RI) / (最大RI - 期待RI)
- -1から1の値をとり、1が完全一致、0がランダム、負の値はランダムより悪いことを示す
- クラスタ数やクラスタサイズが異なる場合でも公平に比較できる
- 対称的な指標であり、どちらを真のラベルとしても同じ値になる
- クラスタ数の違いに対してロバストである
5.3.2 正規化相互情報量(NMI)
- 相互情報量は2つのクラスタリング結果間の情報の共有度を測定する
- MI(U, V) = ΣΣP(i, j) × log(P(i, j) / (P(i) × P(j)))
- Uは一方のクラスタリング、Vは他方のクラスタリングである
- 正規化相互情報量はエントロピーで正規化し、0から1の範囲に収める
- NMI(U, V) = MI(U, V) / √(H(U) × H(V))
- H(U)、H(V)はそれぞれのクラスタリングのエントロピーである
- 情報理論に基づく厳密な定式化であり、解釈が明確である
- クラスタ数やサイズの違いの影響を受けにくい
- 1に近いほど高い一致度を示す
5.3.3 V-measure
- V-measureは完全性(completeness)と均一性(homogeneity)の調和平均である
- 完全性:同じ真のクラスのメンバーが同じクラスタに割り当てられているか
- 均一性:各クラスタが単一の真のクラスのメンバーのみを含んでいるか
- 適合率と再現率の関係と類似した構造を持つ
- V = 2 × (h × c) / (h + c)
- hは均一性、cは完全性である
- NMIと密接に関連するが、構成要素を分解して解釈できる利点がある
- どちらの側面(完全性または均一性)が不足しているかを特定できる
- クラスタリングアルゴリズムの改善方向を示唆する
5.4 評価指標の選択基準
- 真のラベルが利用可能な場合は外部評価指標を使用する
- アルゴリズムのベンチマークや、半教師あり学習の評価に適用する
- ARIやNMIはクラスタ数の違いに対してロバストである
- 真のラベルが利用できない実務では内部評価指標を使用する
- シルエット係数は直感的で可視化しやすく、異常検出にも使える
- Davies-Bouldin指数とCalinski-Harabasz指数は計算が高速である
- 最終的な評価はビジネス目的への適合度で判断すべきである
- 顧客セグメンテーションならマーケティング施策の効果で評価する
- 異常検知なら実際の異常検出率と誤検知率で評価する
- 評価指標はあくまで中間指標であり、ビジネス成果が最終目標である
6. 時系列予測の評価指標
6.1 時系列データの特性と評価の注意点
- 時系列データは時間的な依存関係を持ち、独立同分布の仮定が成立しない
- 過去のデータと未来のデータに相関があり、ランダムサンプリングによる交差検証は不適切である
- 時系列交差検証(Time Series Cross-Validation)を使用し、常に過去データで学習し未来データで評価する
- 定常性の有無が評価に大きく影響する
- 定常な時系列では統計的性質が時間によらず一定である
- 非定常な時系列ではトレンドや季節性を考慮した評価が必要である
- 予測期間(ホライゾン)の長さにより適切な指標が異なる
- 短期予測(1ステップ先)と長期予測(複数ステップ先)では誤差の性質が異なる
- 長期予測では累積誤差が大きくなる傾向がある
6.2 基本的な誤差指標の適用
- MAE、RMSE、MAPEなど回帰問題の基本指標が時系列にも適用される
- 時間方向に沿って誤差を集計する
- 異なる時点での誤差を等しく扱うか、重み付けするかを決定する
- 最近の予測誤差を重視する重み付け評価も可能である
- 時間減衰重み:w(t) = λ^t (0 < λ < 1)を誤差に乗じる
- 最新のデータほど重要と考えられる場合に適用する
- 予測期間全体の性能と、特定の重要時点での性能を別々に評価する
- 月末や期末など、ビジネス上重要な時点での精度を個別に測定する
- 全期間の平均誤差と最大誤差の両方を監視する
6.3 スケールに依存しない評価指標
6.3.1 平均絶対スケール誤差(MASE)
- MASEは予測誤差をナイーブ予測の誤差で正規化する
- MASE = MAE / MAE_naive
- MAE_naiveは単純な基準モデル(前期の値をそのまま使用)の誤差である
- 値が1未満なら基準モデルより良く、1を超えると劣ることを示す
- 異なる時系列やスケール間での性能比較が可能である
- MAPEと異なり、ゼロ値や小さい値でも安定して計算できる
- 季節性がある場合、季節ナイーブ予測(1年前の同時期の値)を基準とする
- 月次データなら12ヶ月前、日次データなら7日前(週の同じ曜日)を使用する
- 季節パターンを考慮した適切なベンチマークとなる
6.3.2 対称MAPE (sMAPE)
- sMAPEは実測値と予測値の平均を分母として使用する
- sMAPE = 100/N × Σ|y - ŷ| / ((|y| + |ŷ|) / 2)
- MAPEのゼロ値問題を緩和する
- 過大予測と過小予測を対称的に扱う
- MAPEでは過小予測の方が大きくペナルティを受けるが、sMAPEは対称的である
- 0から200の範囲の値をとる
- 解釈がMAPEより複雑で、境界値の扱いに注意が必要である
- 実測値と予測値が共にゼロに近い場合、不安定になる
- 実務では複数の指標を併用して総合的に評価する
6.4 確率的予測の評価
6.4.1 予測区間のカバレッジ
- 予測区間は予測値の不確実性を範囲で表現する
- 95%予測区間は、真の値が95%の確率で含まれる範囲である
- 点予測だけでなく、不確実性の定量化も評価する
- カバレッジは実際に予測区間に含まれた割合を測定する
- 適切にキャリブレーションされていれば、95%区間のカバレッジは約95%となる
- カバレッジが低すぎる場合、不確実性を過小評価している
- カバレッジが高すぎる場合、区間が広すぎて実用性が低い
- 区間の幅も同時に評価する
- カバレッジが高くても区間が極端に広ければ有用性が低い
- カバレッジと区間幅のトレードオフを考慮する
6.4.2 連続ランク確率スコア(CRPS)
- CRPSは予測分布と実測値の乖離を測定する
- 確率分布全体を評価し、単一の点予測よりも豊かな情報を提供する
- CRPS = ∫(F(y) - 1_{y≥y_obs})² dy
- F(y)は予測累積分布関数、y_obsは観測値である
- 点予測の評価指標を確率予測に一般化したものである
- 予測分布が点推定に退化した場合、MAEと等価になる
- 分布の形状全体を考慮した評価が可能である
- 気象予報や需要予測など、確率的予測が求められる分野で標準的に使用される
- アンサンブル予測の評価に適している
- 異なる確率モデルの性能比較に使用される
6.4.3 分位点スコア
- 分位点スコアは特定の分位点での予測精度を評価する
- τ分位点の予測に対する損失を計算する
- 複数の分位点(例:10%, 50%, 90%)を予測し、分布の形状を捉える
- 非対称な損失構造を持つビジネス問題に適用できる
- 在庫最適化では欠品コストと過剰在庫コストが異なる
- リスク管理では下側リスク(損失側)を重視する場合がある
- 平均分位点スコアを複数の分位点にわたって計算することで、分布全体を評価する
- CRPSの離散版として解釈できる
- 計算が比較的容易で実装しやすい
6.5 予測可能性の評価
- すべての時系列が等しく予測可能なわけではない
- 予測可能性(forecastability)を事前に評価することが重要である
- 予測不可能な時系列に対しては、高度なモデルでも性能向上は限定的である
- サンプルエントロピーや近似エントロピーにより、時系列の複雑さを定量化する
- 低エントロピーは規則的なパターンを持ち、予測しやすい
- 高エントロピーはランダムに近く、予測が困難である
- ベースラインモデルとの比較により、改善の余地を評価する
- 単純な移動平均やARIMAモデルと複雑なモデルの性能差を確認する
- 改善が小さい場合、データ収集やモデルの再考が必要である
7. 自然言語処理の評価指標
7.1 機械翻訳の評価
7.1.1 BLEU
- BLEUは機械翻訳の品質を自動評価する代表的な指標である
- 生成文と参照文のn-gramの一致度を測定する
- 複数の参照文を使用できる
- 精度ペナルティと簡潔性ペナルティを組み合わせる
- 精度:n-gram(1-gram〜4-gram)の適合率の幾何平均
- 簡潔性:生成文が短すぎる場合にペナルティを与える
- BLEUの限界を理解した上で使用する必要がある
- 文の意味が同じでも表現が異なる場合、低いスコアになる
- 参照文と完全に一致しなくても、流暢で正確な翻訳は存在する
- 人間による評価との相関は高いが完全ではない
7.1.2 ROUGE
- ROUGEは要約や生成テキストの評価に使用される
- BLEUと逆の視点で、参照文中のn-gramが生成文にどれだけ含まれるかを測定する
- Recall重視の指標である
- ROUGE-N、ROUGE-L、ROUGE-Sなど複数のバリエーションが存在する
- ROUGE-N:n-gramの再現率
- ROUGE-L:最長共通部分列(LCS)ベースの評価
- ROUGE-S:スキップバイグラムを考慮した評価
- 要約タスクでは、重要情報の網羅性を評価するためRecallが重要である
- 生成文が短くても重要な内容を含んでいれば高評価となる
- PrecisionとRecallのバランスを見るためF値も併用する
7.1.3 METEOR
- METEORはBLEUの弱点を補完する改良版指標である
- 完全一致だけでなく、同義語や語幹の一致も考慮する
- 適合率と再現率の調和平均をベースとする
- 語順の一致度もペナルティとして組み込む
- アライメントを計算し、語順の入れ替わりを検出する
- 意味は同じでも語順が大きく異なる場合にペナルティを与える
- 人間による評価との相関がBLEUより高い傾向がある
- 言語リソース(同義語辞書など)に依存するため、すべての言語で利用できるわけではない
- 計算コストがBLEUより高い
7.1.4 BERTScore
- BERTScoreは事前学習済み言語モデルを用いた意味的類似度評価である
- トークンの埋め込みベクトル間のコサイン類似度を計算する
- 表面的な一致ではなく、意味的な類似性を捉える
- 参照文と生成文のトークン間の最適マッチングを求める
- 各トークンに対して最も類似度の高い対応トークンを見つける
- 精度、再現率、F1スコアとして集約する
- 最新の言語モデルの進化を評価指標に取り込める
- モデルの更新により評価基準も改善される
- 計算コストが高く、BLEUのような軽量な指標の代替にはならない場合がある
7.2 質問応答システムの評価
7.2.1 完全一致(Exact Match)
- 生成された回答が参照回答と完全に一致するかを判定する
- 厳格な評価基準であり、一文字でも異なれば不一致とする
- 二値(0または1)の評価である
- 前処理による正規化が重要である
- 大文字小文字の統一、句読点の除去、冠詞の除去などを適用する
- 言語や文化に応じた適切な正規化ルールを設定する
- 完全一致率は厳しすぎるため、他の指標と併用する
- 意味的に正しくても表現が異なる回答が低評価される
- F1スコアなど、部分一致を評価する指標と組み合わせる
7.2.2 F1スコア(トークンベース)
- 回答と参照のトークン集合のF1スコアを計算する
- Precision = (共通トークン数) / (回答のトークン数)
- Recall = (共通トークン数) / (参照のトークン数)
- F1 = 2 × Precision × Recall / (Precision + Recall)
- 語順を無視し、トークンの集合として評価する
- 部分的に正しい回答を適切に評価できる
- 完全一致よりも柔軟な評価が可能である
- 複数の参照回答がある場合、最も高いF1スコアを採用する
- 質問に対する正解は一つではない場合が多い
- すべての参照と比較し、最良のマッチを評価に使用する
7.2.3 質問応答における評価の課題
- 回答の意味的正しさを完全に自動評価することは困難である
- 同じ意味を異なる表現で述べる回答が多数存在する
- 数値や固有名詞の表記ゆれに対応する必要がある
- 人間による評価(Human Evaluation)を併用することが望ましい
- 自動評価指標の妥当性を人間評価で検証する
- ランダムサンプリングした回答を人間が評価し、相関を確認する
- 評価の一貫性を保つためのガイドラインが重要である
- 複数の評価者間で基準を統一する
- 評価者間一致率(Inter-Annotator Agreement)を測定する
7.3 テキスト分類の評価
- テキスト分類には第2章の分類問題の評価指標が適用される
- 精度、適合率、再現率、F1スコア、AUCなどを使用する
- マルチクラス、マルチラベル分類に応じて指標を選択する
- テキスト特有の考慮事項がいくつか存在する
- クラス不均衡が顕著な場合が多い(スパム検出、感情分析など)
- テキストの長さやドメインにより性能が変動する
- ドメイン適応性の評価が重要である
- 学習データと異なるドメインでの汎化性能を測定する
- クロスドメイン評価により、モデルのロバスト性を確認する
7.4 言語生成モデルの評価
7.4.1 パープレキシティ
- パープレキシティは言語モデルの驚き度を測定する
- PPL = exp(-1/N × Σlog P(w_i|w_1,...,w_{i-1}))
- P(w_i|...)は文脈を与えたときの次単語の確率である
- 値が小さいほど、モデルがテストデータをよく予測できている
- PPLが低いモデルは、実際に出現する単語に高い確率を割り当てている
- 言語モデルの基本的な性能指標として広く使用される
- パープレキシティの限界を理解する必要がある
- 生成テキストの品質や有用性を直接評価しない
- 確率は高くても、不自然な文を生成する可能性がある
- タスク固有の評価指標と組み合わせて総合的に判断する
7.4.2 多様性の評価
- 生成テキストの多様性を定量化する指標が必要である
- Distinct-n:生成されたユニークなn-gramの割合
- Self-BLEU:生成文同士のBLEUスコア(低いほど多様)
- 多様性と品質のトレードオフを考慮する
- 極端に多様な生成は品質が低下する可能性がある
- 適度な多様性を保ちつつ、品質を維持する必要がある
- 用途に応じて多様性の重要度が異なる
- 対話システムでは多様性が高いと自然な会話になる
- 要約や翻訳では正確性が優先され、多様性は二次的である
7.4.3 事実性の評価
- 生成テキストの事実的正確性を評価する指標が求められている
- 幻覚(Hallucination)の検出が重要な課題である
- 外部知識ベースとの照合により事実確認を行う
- FactCCやQAGSなど、自動事実検証手法が提案されている
- 生成文から質問を自動生成し、元文書で回答が一致するか確認する
- エンティティや数値の正確性を個別にチェックする
- 最終的には人間による事実確認が必要な場合が多い
- 自動評価は補助的な役割にとどまる
- 高リスクな用途では人間のレビューを組み込む
8. 推薦システムの評価指標
8.1 評価の複雑性
- 推薦システムの評価は多面的であり、単一の指標では不十分である
- 精度:ユーザーが好むアイテムを推薦できているか
- 多様性:推薦リスト内のアイテムが多様か
- 新規性:ユーザーが知らないアイテムを提示できているか
- セレンディピティ:意外性があり価値のある発見を提供できているか
- カバレッジ:システム内のアイテムを幅広く推薦できているか
- オフライン評価とオンライン評価の両方が必要である
- オフライン評価は過去データを用いた精度評価である
- オンライン評価は実際のユーザー行動を観察するA/Bテストである
- ビジネス指標への影響を最終的に評価する
- クリック率、購入率、滞在時間、売上などの実測可能な指標
- 推薦システムの改善がビジネス成果に結びついているかを検証する
8.2 精度の評価
8.2.1 評価プロトコルの設計
- 時系列的な分割が必須である
- ランダム分割は未来の情報を使った評価となり、過度に楽観的な結果を生む
- 学習データより後の時点のデータを評価に使用する
- 暗黙的フィードバックと明示的フィードバックで評価方法が異なる
- 明示的フィードバック(評価値):予測評価値と実際の評価値の誤差を測定する
- 暗黙的フィードバック(クリック、購入):ランキング問題として評価する
- コールドスタート問題への対応も評価に含める
- 新規ユーザー、新規アイテムに対する推薦性能を別途測定する
- 全体の性能だけでなく、セグメント別の性能も評価する
8.2.2 評価値予測の指標
- 評価値予測はRMSEやMAEで評価される
- Netflix Prizeで使用され、広く普及した
- ユーザーの評価値を正確に予測することが目標である
- 評価値予測の精度と推薦の有用性は必ずしも一致しない
- ユーザーは評価値4.5と4.6の違いを気にしないかもしれない
- 上位K件に好まれるアイテムが含まれていることの方が重要である
- ランキング指標との相関を確認する
- RMSEが改善してもランキング性能が向上しない場合がある
- 実際の推薦タスクに近い指標を優先すべきである
8.2.3 Top-N推薦の指標
- Precision@K、Recall@K、NDCG@Kなどのランキング指標を使用する
- 第4章のランキング問題の指標が推薦システムにも適用される
- ユーザーごとに指標を計算し、全ユーザーで平均する
- MAP(Mean Average Precision)も有用である
- 推薦リスト全体の質を単一の値で評価できる
- ユーザーが推薦リストを上から順に見ていく行動を反映する
- ヒット率(Hit Rate)は最も単純な指標である
- 推薦リスト中に少なくとも一つ関連アイテムがあれば成功とする
- ユーザーごとの成功率を計算し、全ユーザーで平均する
8.3 Beyond-Accuracy指標
8.3.1 多様性(Diversity)
- 推薦リスト内のアイテム間の非類似度を測定する
- Intra-List Diversity = 1/(K×(K-1)) × ΣΣdist(i, j)
- dist(i, j)はアイテムiとjの距離(例:コサイン距離)である
- カテゴリの多様性も評価できる
- 推薦リスト内のユニークなカテゴリ数を数える
- エントロピーを用いてカテゴリ分布の均一性を評価する
- 多様性と精度のトレードオフを考慮する
- 極端に多様な推薦は、ユーザーの好みから外れる可能性がある
- ユーザーの探索的な行動と活用的な行動のバランスを取る
8.3.2 新規性(Novelty)
- 新規性はユーザーが過去に接触していないアイテムの推薦を評価する
- Novelty = -Σlog2(popularity(i))
- 人気の低いアイテムほど新規性が高いと評価される
- 単に人気がないだけでなく、ユーザーにとって新しい発見であることが重要である
- ユーザーの既知アイテムを除外した上で新規性を測定する
- 推薦されなければ発見できなかったアイテムを提示できているかを評価する
- ビジネス上のメリットも大きい
- ロングテールアイテムの販売促進につながる
- ユーザーのシステムへの満足度を高め、継続利用を促進する
8.3.3 セレンディピティ(Serendipity)
- セレンディピティは意外性と有用性を兼ね備えた推薦を評価する
- 予想外でありながら、ユーザーにとって価値がある
- 新規性より強い概念であり、意外な発見を重視する
- 測定には明示的な基準モデルが必要である
- Serendipity = Σ(relevance(i) × unexpectedness(i))
- unexpectednessは基準モデルが推薦しないアイテムを高く評価する
- 定量化が困難であり、ユーザー調査が有効である
- オンライン調査やインタビューで意外性と満足度を質問する
- 自動評価指標の妥当性を人間評価で検証する
8.3.4 カバレッジ(Coverage)
- カバレッジはシステムが推薦可能なアイテムの範囲を評価する
- Item Coverage = (推薦されたユニークアイテム数) / (全アイテム数)
- 人気アイテムに偏らず、幅広く推薦できているかを測定する
- ユーザーカバレッジも考慮する
- User Coverage = (満足のいく推薦を受けたユーザー数) / (全ユーザー数)
- すべてのユーザーに有用な推薦を提供できているかを評価する
- カバレッジが低い場合、ビジネス機会を逃している
- ロングテールアイテムが推薦されないと、在庫が無駄になる
- 特定ユーザーセグメントが無視されると、顧客基盤の拡大が困難になる
8.4 オンライン評価とA/Bテスト
- A/Bテストはランダム化比較試験により因果効果を測定する
- ユーザーをランダムに2群に分け、異なる推薦アルゴリズムを適用する
- ビジネス指標(クリック率、購入率、売上など)を比較する
- 統計的有意性の検証が必須である
- p値や信頼区間を計算し、差が偶然でないことを確認する
- サンプルサイズが不足すると、真の差を検出できない
- 長期的な影響も考慮する必要がある
- 短期的なクリック率向上が、長期的なユーザー満足度につながるとは限らない
- ユーザーの行動変化やシステムへの信頼度を長期的に追跡する
- 複数の指標を総合的に評価する
- 単一の指標が改善しても、他の重要な指標が悪化する場合がある
- ビジネス目標に照らして、指標の優先順位を明確にする
9. 公平性とバイアスの評価
9.1 機械学習における公平性の定義
- 公平性には複数の数学的定義が存在し、すべてを同時に満たすことは不可能である
- Demographic Parity:各グループで正例予測率が等しい
- Equalized Odds:各グループでTPRとFPRが等しい
- Equality of Opportunity:各グループでTPRが等しい
- Predictive Parity:各グループで適合率が等しい
- これらの定義は互いに矛盾する場合がある
- ベースレート(グループごとの正例率)が異なる場合、すべての公平性基準を満たせない
- どの公平性基準を優先するかは、社会的・倫理的な判断を要する
- 用途に応じて適切な公平性基準を選択する
- 採用や融資など、機会の平等が重要な場合はEquality of Opportunityが適切である
- リスク評価や診断など、予測の正確性が重要な場合はPredictive Parityが重要である
9.2 バイアス検出の指標
9.2.1 Disparate Impact
- Disparate Impactは異なるグループ間での予測結果の差を測定する
- DI = (保護グループの正例予測率) / (非保護グループの正例予測率)
- 値が1に近いほど公平である
- 米国の雇用機会均等委員会は「80%ルール」を提示している
- DIが0.8未満の場合、差別的影響がある可能性を示唆する
- 法的な基準ではないが、実務上の目安として使用される
- DIは結果の平等のみを評価し、原因は考慮しない
- グループ間の真の差異とモデルのバイアスを区別しない
- さらなる分析により、差異の原因を特定する必要がある
9.2.2 Equal Opportunity Difference
- Equal Opportunity Differenceは真陽性率(TPR)の差を測定する
- EOD = |TPR_protected - TPR_unprotected|
- 値がゼロに近いほど公平である
- 機会の平等を重視する場合に適切な指標である
- 実際に正例である個人が、グループに関わらず等しく正しく検出されるべきである
- 採用、融資、医療診断など、見逃しによる不利益が大きい場合に重視する
- TPRのみを考慮し、FPRは評価しない
- Equalized Oddsは TPRとFPRの両方を考慮するより厳しい基準である
- EOD = max(|TPR_protected - TPR_unprotected|, |FPR_protected - FPR_unprotected|)
9.2.3 Average Odds Difference
- Average Odds Differenceは TPRとFPRの平均差を測定する
- AOD = (|TPR_protected - TPR_unprotected| + |FPR_protected - FPR_unprotected|) / 2
- Equalized Oddsを満たす度合いを単一の値で表現する
- 誤検知(FP)と見逃し(FN)の両方のバイアスを検出できる
- 一方のエラーのみに注目する指標よりも包括的である
- グループ間で予測エラーの種類に偏りがないかを確認する
9.3 公平性とパフォーマンスのトレードオフ
- 公平性の向上は、しばしば全体的な精度の低下を伴う
- すべてのグループで同じ閾値を使用すると、全体最適な性能が得られない場合がある
- 公平性制約下での最適化は、制約なしの最適化より性能が劣る
- トレードオフの程度を定量化する
- パレートフロンティアを描き、精度と公平性の関係を可視化する
- ビジネス要件と社会的責任のバランスを見つける
- ステークホルダーとの対話を通じて許容可能なトレードオフを決定する
- 技術的な最適解が社会的に受け入れられるとは限らない
- 透明性を保ち、意思決定プロセスを説明可能にする
9.4 バイアス軽減手法の評価
- 前処理、学習中の制約、後処理という3つのアプローチが存在する
- 前処理:学習データからバイアスを除去する
- 学習中の制約:公平性制約を目的関数に組み込む
- 後処理:予測結果を調整し、公平性基準を満たす
- 各手法の効果を複数の公平性指標で評価する
- 一つの公平性基準を満たしても、他の基準が悪化する場合がある
- バイアス軽減が性能に与える影響を測定する
- 継続的な監視が必要である
- データ分布が変化すると、新たなバイアスが発生する可能性がある
- 定期的にバイアス監査を実施し、公平性を維持する
9.5 説明可能性と透明性
- モデルの予測根拠を説明できることが、信頼性と公平性の確保に重要である
- SHAP値やLIMEにより、個別予測の特徴量重要度を可視化する
- どの特徴がバイアスを引き起こしているかを特定できる
- グローバルな説明とローカルな説明の両方が必要である
- グローバル説明:モデル全体の振る舞いを理解する
- ローカル説明:個別の予測がなぜそうなったかを説明する
- 規制や倫理的要請により、説明可能性が法的要件となる場合がある
- EU一般データ保護規則(GDPR)は自動化された意思決定の説明を求める権利を規定する
- 高リスクな用途(金融、医療、司法)では説明義務が特に重要である
10. 評価指標の選択と運用
10.1 評価指標選択のフレームワーク
- ビジネス目標から逆算して指標を設計する
- 最終的なビジネス成果(売上、顧客満足度など)を明確化する
- その成果に影響する中間指標を特定する
- 機械学習モデルが最適化できる技術指標へと落とし込む
- 複数の指標を階層的に整理する
- North Star Metric:最も重要な単一の指標
- 主要指標:North Star Metricを構成する要素
- 副次指標:予期しない悪影響を検出するための指標
- 指標間のトレードオフを明示する
- 適合率と再現率、精度と公平性など、両立困難な指標の関係を理解する
- ビジネス要件に基づいて優先順位を決定する
10.2 ベースラインの設定
- 単純なベースラインモデルを必ず用意する
- ランダム予測、多数決予測、前期の値をそのまま使用など
- 複雑なモデルが実際に価値を生んでいるかを検証する
- ドメインエキスパートの性能と比較する
- 人間の専門家が達成できる精度を目標とする
- 人間を超える性能が得られても、実用性を別途評価する
- 既存システムの性能を基準とする
- 新しいモデルが既存システムを改善しているかを確認する
- A/Bテストにより、実際のビジネス環境での優位性を検証する
10.3 評価の信頼性と再現性
- ホールドアウト法の注意点を理解する
- 一度きりの分割では、結果が不安定になる可能性がある
- データ量が少ない場合、評価結果の分散が大きい
- 交差検証により評価の安定性を向上させる
- k-fold交差検証でk個の異なるテストセットを評価する
- 平均性能と標準偏差を報告し、結果のばらつきを示す
- ランダムシードを固定し、再現可能性を確保する
- データ分割、モデル初期化、データ拡張などの乱数を管理する
- 実験結果を他者が再現できるようにする
- 統計的有意性検定を実施する
- 2つのモデルの性能差が統計的に有意かを確認する
- p値だけでなく効果量(Cohen's dなど)も報告する
10.4 評価環境とプロダクション環境のギャップ
- オフライン評価とオンライン性能の乖離を認識する
- データの分布が時間とともに変化する(概念ドリフト)
- ユーザーの行動がモデルの予測に影響される(フィードバックループ)
- A/Bテストによる検証を必須とする
- オフラインで最良のモデルが実環境で最良とは限らない
- 実際のユーザー行動とビジネス指標で最終判断する
- 段階的なロールアウト戦略を採用する
- 小規模なユーザーグループで試験的に導入する
- 問題がないことを確認してから全体に展開する
- カナリアリリースやシャドーモードを活用する
10.5 継続的な監視と改善
- モデル性能の継続的なモニタリングが必要である
- 本番環境での予測精度を定期的に測定する
- 性能劣化を検出したら、再学習や再設計を実施する
- データドリフトとコンセプトドリフトを区別する
- データドリフト:入力データの分布が変化する
- コンセプトドリフト:入力と出力の関係が変化する
- それぞれに適した対処法を適用する
- フィードバックループを構築する
- ユーザーからのフィードバックを収集し、モデル改善に活用する
- 予測結果の正誤をラベルとして蓄積し、継続的な学習を行う
- 評価指標自体の妥当性も定期的に見直す
- ビジネス環境の変化により、重要な指標が変わる可能性がある
- 新しい評価手法や業界標準が登場したら、採用を検討する
10.6 ステークホルダーコミュニケーション
- 技術者と非技術者の橋渡しをする
- 評価指標を専門用語を避けて説明する
- ビジネスへの影響を具体的な数値や事例で示す
- 可視化により理解を促進する
- ROC曲線、PR曲線、混同行列などのグラフを活用する
- 時系列での性能推移を示し、改善のトレンドを視覚化する
- リスクと不確実性を正直に伝える
- モデルの限界と失敗の可能性を隠さない
- 過度な期待を抑制し、現実的な目標設定を促す
- 意思決定に必要な情報を適切に提供する
- 単一の指標だけでなく、多面的な評価結果を提示する
- トレードオフや制約条件を明確にし、判断材料を提供する
結論
評価指標の戦略的重要性
- 評価指標の選択は、プロジェクトの成否を決定づける最も重要な意思決定である
- 適切な指標なしに、改善の方向性を見出すことはできない
- 誤った指標はリソースの浪費と間違った最適化を招く
- ビジネス価値とデータサイエンスを結びつける架け橋である
- 技術的成果を経営判断に翻訳する役割を果たす
- ステークホルダー間の共通言語として機能する
実践における複雑性
- 単一の完璧な指標は存在しない
- タスク、ドメイン、ビジネス要件に応じて最適な指標は異なる
- 複数の指標を組み合わせ、多角的に評価する必要がある
- オフライン評価とオンライン評価の両輪が不可欠である
- オフライン評価は効率的な実験と改善を可能にする
- オンライン評価は実際のビジネス価値を検証する
- 継続的な見直しと適応が求められる
- データ分布やビジネス環境は変化し続ける
- 評価基準も進化させる必要がある
用語まとめ
| カテゴリ | 用語 | 説明 |
|---|---|---|
| 一般 | 評価指標 | ビジネス目標やプロジェクトの成果を定量的に測定するための基準 |
| 一般 | ビジネス指標 | 売上、利益、顧客満足度など経営判断に直結する指標 |
| 一般 | 機械学習指標 | 精度、再現率、AUCなど技術的な性能を測る指標 |
| 一般 | 中間指標 | ビジネス指標と機械学習指標を結びつける代理指標 |
| 一般 | 代理指標 | 最終的なビジネス成果の代わりに測定可能な中間的な指標 |
| 一般 | A/Bテスト | ランダム化比較試験により因果効果を測定する手法 |
| 一般 | 交差検証 | データを複数の分割パターンで評価し、結果の安定性を確認する手法 |
| 一般 | ホールドアウト法 | データを学習用と評価用に一度だけ分割する評価手法 |
| 一般 | k-fold交差検証 | データをk個に分割し、それぞれをテストセットとして評価する手法 |
| 一般 | 概念ドリフト | 入力と出力の関係が時間とともに変化する現象 |
| 一般 | データドリフト | 入力データの分布が時間とともに変化する現象 |
| 一般 | フィードバックループ | ユーザーの行動がモデルの予測に影響を与える循環的な関係 |
| 一般 | MLOps | 機械学習モデルの開発・運用を自動化・標準化するプラクティス |
| 一般 | 因果推論 | 相関関係ではなく因果関係を統計的に推定する手法 |
| 分類 | 混同行列 | 分類モデルの予測結果を体系的に整理する2×2の表 |
| 分類 | True Positive (TP) | 正しく正例と予測した数 |
| 分類 | False Positive (FP) | 誤って正例と予測した数(第一種過誤) |
| 分類 | True Negative (TN) | 正しく負例と予測した数 |
| 分類 | False Negative (FN) | 誤って負例と予測した数(第二種過誤) |
| 分類 | 第一種過誤 | 実際は負例なのに正例と判定する誤り |
| 分類 | 第二種過誤 | 実際は正例なのに負例と判定する誤り |
| 分類 | 正解率 (Accuracy) | 全予測のうち正しく予測した割合 |
| 分類 | エラー率 (Error Rate) | 全予測のうち誤って予測した割合 |
| 分類 | クラス不均衡 | データセット内で正例と負例の数が大きく偏っている状態 |
| 分類 | 適合率 (Precision) | 正例と予測したもののうち実際に正例だった割合 |
| 分類 | 再現率 (Recall) | 実際の正例のうち正しく検出できた割合 |
| 分類 | F1スコア | 適合率と再現率の調和平均 |
| 分類 | 調和平均 | 逆数の平均の逆数として計算される平均値 |
| 分類 | Fβスコア | 適合率と再現率の重み付けを調整できる一般化形式 |
| 分類 | マクロ平均F1 | 各クラスのF1を算術平均する集約方法 |
| 分類 | マイクロ平均F1 | 全クラスのTP、FP、FNを合計してからF1を計算する集約方法 |
| 分類 | ROC曲線 | 横軸にFPR、縦軸にTPRをプロットした曲線 |
| 分類 | TPR (True Positive Rate) | 真陽性率、Recallと同義 |
| 分類 | FPR (False Positive Rate) | 偽陽性率、負例のうち誤って正例と予測した割合 |
| 分類 | AUC (Area Under the Curve) | ROC曲線下の面積 |
| 分類 | PR曲線 (Precision-Recall曲線) | 横軸にRecall、縦軸にPrecisionをプロットした曲線 |
| 分類 | AP (Average Precision) | PR曲線下の面積の近似値 |
| 分類 | 対数損失 (Log Loss) | 予測確率と真のラベルの乖離を測定する指標 |
| 分類 | キャリブレーション | 予測確率が実際の発生確率と一致するように調整すること |
| 分類 | コスト行列 | 混同行列の各要素に異なるコストを割り当てた行列 |
| 分類 | 期待コスト | コスト行列を用いて計算される予測の期待される総コスト |
| 回帰 | 平均絶対誤差 (MAE) | 予測値と実測値の絶対誤差の平均 |
| 回帰 | 平均二乗誤差 (MSE) | 予測値と実測値の二乗誤差の平均 |
| 回帰 | 平均平方根誤差 (RMSE) | MSEの平方根 |
| 回帰 | 決定係数 (R²) | 目的変数の分散のうち、モデルが説明できる割合 |
| 回帰 | 調整済みR² (Adjusted R²) | 説明変数の数を考慮した決定係数 |
| 回帰 | 平均絶対パーセント誤差 (MAPE) | 予測誤差を実測値に対する割合で表現する指標 |
| 回帰 | sMAPE (symmetric MAPE) | 実測値と予測値の平均を分母として使用する対称的なMAPE |
| 回帰 | 分位点損失 | 特定の分位点での予測誤差を評価する非対称な損失関数 |
| 回帰 | Huber損失 | MAEを平滑化した損失関数 |
| 回帰 | 最小二乗法 | MSEを最小化する回帰手法 |
| ランキング | 適合率@K (Precision@K) | 上位K件のうち関連アイテムの割合 |
| ランキング | 再現率@K (Recall@K) | 全関連アイテムのうち上位K件に含まれる割合 |
| ランキング | 平均適合率 (AP) | 各関連アイテムが出現した位置でのPrecisionの平均 |
| ランキング | 平均平均適合率 (MAP) | 複数のクエリに対するAPの平均 |
| ランキング | 正規化割引累積利得 (NDCG) | DCGを理想的なランキングでのDCGで正規化した指標 |
| ランキング | DCG (Discounted Cumulative Gain) | 各位置での関連度を位置で割り引いて合計する指標 |
| ランキング | IDCG (Ideal DCG) | 理想的なランキングでのDCG |
| ランキング | 相互順位 (MRR) | 最初の関連アイテムが出現する位置の逆数の平均 |
| ランキング | Position Bias | 上位のアイテムほど閲覧されやすいという偏り |
| ランキング | Learning to Rank | ランキング問題を機械学習で解く手法の総称 |
| ランキング | Pointwise手法 | 個別の関連度予測として定式化するランキング手法 |
| ランキング | Pairwise手法 | アイテム間の順序関係の正しさを評価するランキング手法 |
| ランキング | Listwise手法 | ランキング全体を直接評価するランキング手法 |
| クラスタリング | 内部評価指標 | クラスタリング結果自体の性質を評価する指標 |
| クラスタリング | 外部評価指標 | 既知のラベルとの一致度を評価する指標 |
| クラスタリング | シルエット係数 | 各データポイントの所属クラスタの適切さを-1から1で評価する指標 |
| クラスタリング | Davies-Bouldin指数 | クラスタの凝集度と分離度を総合的に評価する指標 |
| クラスタリング | Calinski-Harabasz指数 | クラスタ間分散とクラスタ内分散の比を評価する指標 |
| クラスタリング | 調整ランド指数 (ARI) | 偶然による一致を補正したランド指数 |
| クラスタリング | ランド指数 (RI) | データ点のペアについて両方のクラスタリングで同じ扱いになっている割合 |
| クラスタリング | 正規化相互情報量 (NMI) | エントロピーで正規化した相互情報量 |
| クラスタリング | 相互情報量 (MI) | 2つのクラスタリング結果間の情報の共有度 |
| クラスタリング | エントロピー | 情報理論における不確実性の尺度 |
| クラスタリング | V-measure | 完全性と均一性の調和平均 |
| クラスタリング | 完全性 (completeness) | 同じ真のクラスのメンバーが同じクラスタに割り当てられている度合い |
| クラスタリング | 均一性 (homogeneity) | 各クラスタが単一の真のクラスのメンバーのみを含んでいる度合い |
| クラスタリング | K-means | クラスタ中心を用いた代表的なクラスタリング手法 |
| クラスタリング | 階層的クラスタリング | データを階層的に分割または結合するクラスタリング手法 |
| クラスタリング | 密度ベースクラスタリング | データの密度に基づいてクラスタを形成する手法 |
| 時系列 | 時系列交差検証 | 常に過去データで学習し未来データで評価する交差検証手法 |
| 時系列 | 定常性 | 統計的性質が時間によらず一定である性質 |
| 時系列 | 非定常 | 統計的性質が時間とともに変化する性質 |
| 時系列 | トレンド | 時系列データの長期的な傾向 |
| 時系列 | 季節性 | 時系列データの周期的なパターン |
| 時系列 | 予測期間 (ホライゾン) | 将来のどの時点までを予測対象とするかの期間 |
| 時系列 | ナイーブ予測 | 前期の値をそのまま使用する単純な予測手法 |
| 時系列 | 季節ナイーブ予測 | 1年前など季節周期分前の値を使用する予測手法 |
| 時系列 | 平均絶対スケール誤差 (MASE) | 予測誤差をナイーブ予測の誤差で正規化した指標 |
| 時系列 | 予測区間 | 予測値の不確実性を範囲で表現したもの |
| 時系列 | カバレッジ | 実際に予測区間に含まれた割合 |
| 時系列 | 連続ランク確率スコア (CRPS) | 予測分布と実測値の乖離を測定する指標 |
| 時系列 | 累積分布関数 | 確率変数がある値以下になる確率を表す関数 |
| 時系列 | アンサンブル予測 | 複数のモデルの予測を組み合わせる手法 |
| 時系列 | 分位点スコア | 特定の分位点での予測精度を評価する指標 |
| 時系列 | 予測可能性 (forecastability) | 時系列がどの程度予測しやすいかを示す指標 |
| 時系列 | サンプルエントロピー | 時系列の複雑さを定量化する指標 |
| 時系列 | 近似エントロピー | 時系列の規則性を測定する指標 |
| 時系列 | ARIMA | 自己回帰和分移動平均モデル |
| 時系列 | 移動平均 | 過去の一定期間の平均値を用いる予測手法 |
| NLP | BLEU | 機械翻訳の品質を自動評価する代表的な指標 |
| NLP | n-gram | 連続するn個の単語の列 |
| NLP | 精度ペナルティ | BLEUにおけるn-gramの適合率に基づくペナルティ |
| NLP | 簡潔性ペナルティ | BLEUにおいて生成文が短すぎる場合に与えるペナルティ |
| NLP | ROUGE | 要約や生成テキストの評価に使用される指標 |
| NLP | ROUGE-N | n-gramの再現率を測定するROUGE |
| NLP | ROUGE-L | 最長共通部分列ベースのROUGE |
| NLP | ROUGE-S | スキップバイグラムを考慮したROUGE |
| NLP | 最長共通部分列 (LCS) | 2つの系列に共通する最も長い部分系列 |
| NLP | スキップバイグラム | 間に他の単語を挟むことを許容したバイグラム |
| NLP | METEOR | BLEUの弱点を補完する改良版の機械翻訳評価指標 |
| NLP | 語幹 | 単語の活用形を除いた基本形 |
| NLP | アライメント | 原文と翻訳文の単語間の対応関係 |
| NLP | BERTScore | 事前学習済み言語モデルを用いた意味的類似度評価指標 |
| NLP | 埋め込みベクトル | 単語や文を数値ベクトルで表現したもの |
| NLP | コサイン類似度 | ベクトル間の角度に基づく類似度指標 |
| NLP | 完全一致 (Exact Match) | 生成された回答が参照回答と完全に一致するかの判定 |
| NLP | トークン | 文を分割した最小単位(単語や部分単語) |
| NLP | パープレキシティ (Perplexity) | 言語モデルの驚き度を測定する指標 |
| NLP | Distinct-n | 生成されたユニークなn-gramの割合 |
| NLP | Self-BLEU | 生成文同士のBLEUスコア |
| NLP | 幻覚 (Hallucination) | 言語モデルが事実でない内容を生成する現象 |
| NLP | FactCC | 自動事実検証手法の一つ |
| NLP | QAGS | 質問生成による自動事実検証手法 |
| NLP | 事前学習済み言語モデル | 大規模コーパスで事前に学習された言語モデル |
| NLP | BERT | Googleが開発した代表的な事前学習済み言語モデル |
| 推薦 | オフライン評価 | 過去データを用いた精度評価 |
| 推薦 | オンライン評価 | 実際のユーザー行動を観察する評価 |
| 推薦 | 暗黙的フィードバック | クリックや購入など明示的な評価を伴わない行動データ |
| 推薦 | 明示的フィードバック | ユーザーが明示的に与えた評価値 |
| 推薦 | コールドスタート問題 | 新規ユーザーや新規アイテムに対する推薦が困難な問題 |
| 推薦 | Top-N推薦 | 上位N件のアイテムを推薦するタスク |
| 推薦 | ヒット率 (Hit Rate) | 推薦リスト中に少なくとも一つ関連アイテムがある割合 |
| 推薦 | 多様性 (Diversity) | 推薦リスト内のアイテム間の非類似度 |
| 推薦 | Intra-List Diversity | リスト内のアイテム間の平均距離 |
| 推薦 | 新規性 (Novelty) | ユーザーが過去に接触していないアイテムの推薦度合い |
| 推薦 | セレンディピティ (Serendipity) | 意外性と有用性を兼ね備えた推薦の度合い |
| 推薦 | カバレッジ (Coverage) | システムが推薦可能なアイテムの範囲 |
| 推薦 | Item Coverage | 推薦されたユニークアイテムの割合 |
| 推薦 | User Coverage | 満足のいく推薦を受けたユーザーの割合 |
| 推薦 | ロングテール | 人気は低いが多数存在するアイテム群 |
| 推薦 | 協調フィルタリング | ユーザー間の類似性に基づく推薦手法 |
| 推薦 | Netflix Prize | 2006-2009年に開催された推薦システムのコンペティション |
| 公平性 | Demographic Parity | 各グループで正例予測率が等しいという公平性基準 |
| 公平性 | Equalized Odds | 各グループでTPRとFPRが等しいという公平性基準 |
| 公平性 | Equality of Opportunity | 各グループでTPRが等しいという公平性基準 |
| 公平性 | Predictive Parity | 各グループで適合率が等しいという公平性基準 |
| 公平性 | ベースレート | グループごとの正例の割合 |
| 公平性 | Disparate Impact | 異なるグループ間での予測結果の差を測定する指標 |
| 公平性 | 80%ルール | Disparate Impactが0.8未満の場合に差別的影響があるとする基準 |
| 公平性 | Equal Opportunity Difference | 真陽性率の差を測定する公平性指標 |
| 公平性 | Average Odds Difference | TPRとFPRの平均差を測定する公平性指標 |
| 公平性 | 保護グループ | 差別から保護されるべき人口統計学的グループ |
| 公平性 | バイアス | モデルの予測が特定のグループに対して系統的に偏ること |
| 公平性 | パレートフロンティア | 精度と公平性のトレードオフを可視化する曲線 |
| 公平性 | SHAP値 | 各特徴量の予測への貢献度を示す説明可能性指標 |
| 公平性 | LIME | 局所的な説明を生成する説明可能性手法 |
| 公平性 | GDPR | EU一般データ保護規則 |
| 公平性 | 説明可能性 | モデルの予測根拠を人間が理解できる形で示す性質 |
| 公平性 | 透明性 | モデルの動作や意思決定プロセスが明確であること |
| 統計 | 統計的有意性 | 観測された差が偶然ではないことを示す統計的証拠 |
| 統計 | p値 | 帰無仮説が真である場合に観測された結果が得られる確率 |
| 統計 | 信頼区間 | パラメータの真の値が含まれると考えられる範囲 |
| 統計 | 効果量 | 統計的に有意な差の実質的な大きさ |
| 統計 | Cohen's d | 2群の平均値の差を標準化した効果量指標 |
| 統計 | Inter-Annotator Agreement | 複数の評価者間での評価の一致度 |
| 統計 | 相関分析 | 変数間の関連性の強さと方向を測定する分析 |
| 統計 | 回帰分析 | 変数間の関係を数式で表現する分析手法 |
| 統計 | 感度分析 | パラメータの変化が結果に与える影響を分析する手法 |
| 統計 | DCF分析 | 割引キャッシュフロー分析 |
| 統計 | ROI | 投資収益率 |
| 統計 | ANOVA | 分散分析 |
| 統計 | F統計量 | ANOVAで使用される統計量 |
| 運用 | North Star Metric | 最も重要な単一の指標 |
| 運用 | カナリアリリース | 小規模なユーザーグループで新機能を試験的に導入する手法 |
| 運用 | シャドーモード | 本番環境で新モデルを実行するが結果は使用しない検証方法 |
| 運用 | ランダムシードの固定 | 乱数生成の初期値を固定し再現性を確保すること |