はじめに
損失関数とか類似度尺度とか。多すぎるのでまとめておきます。
回帰問題用の損失関数
名称 | 説明 |
---|---|
平均二乗誤差(Mean Squared Error, MSE) | 予測値と実際の値の二乗誤差の平均を取る |
平均絶対誤差(Mean Absolute Error, MAE) | 予測値と実際の値の絶対誤差の平均を取る |
平均絶対パーセント誤差(Mean Absolute Percentage Error, MAPE) | 予測値と実際の値の絶対パーセント誤差の平均を取る |
Huber損失 | 誤差が小さい場合は二乗誤差、大きい場合は絶対誤差を用いる |
分類問題用の損失関数
名称 | 説明 |
---|---|
二値クロスエントロピー損失(Binary Cross-Entropy Loss) | 二値分類問題用のクロスエントロピー損失 |
カテゴリカルクロスエントロピー損失(Categorical Cross-Entropy Loss) | マルチクラス分類問題用のクロスエントロピー損失 |
ヒンジ損失(Hinge Loss) | サポートベクターマシン(SVM)で使用される損失関数 |
focal loss | 不均衡なデータセットにおける分類問題用の損失関数 |
ランキング問題用の損失関数
名称 | 説明 |
---|---|
順序ロジスティック回帰損失(Ordinal Logistic Regression Loss) | 順序ラベルを持つランキング問題用の損失関数 |
ランクネットロス(RankNet Loss) | ペアワイズランキング問題用の損失関数 |
ペアワイズランキング損失(Pairwise Ranking Loss) | ランキング問題用の損失関数 |
生成モデル用の損失関数
名称 | 説明 |
---|---|
逆KLダイバージェンス損失(Reverse KL Divergence Loss) | 生成モデルの学習に使用される損失関数 |
Wasserstein損失(Wasserstein Loss) | ワッサースタイン距離に基づく生成モデル用の損失関数 |
最小二乗GAN損失(Least Squares GAN Loss) | 生成モデルの学習に使用される損失関数 |
構造化予測用の損失関数
名称 | 説明 |
---|---|
構造化SVM損失(Structured SVM Loss) | 構造化された出力を持つ予測問題用の損失関数 |
条件付きランダムフィールド損失(Conditional Random Field Loss) | 系列ラベリングなどの構造化予測問題用の損失関数 |
点の距離尺度
名称 | 説明 |
---|---|
ユークリッド距離 | 一般的によく使われる距離尺度。2点間の直線的な距離を表す。外れ値の影響を受けやすい。 |
マンハッタン距離 | 各次元の差の絶対値和で表される。ユークリッド距離よりも外れ値の影響を受けにくい。格子状の街路を移動する距離に例えられる。 |
ミンコフスキー距離 | ユークリッド距離、マンハッタン距離、チェビシフ距離を一般化したもの。パラメータpの値で挙動が変わる。p=2でユークリッド距離、p=1でマンハッタン距離、p→∞でチェビシフ距離に一致。 |
チェビシフ距離 | 各次元の差の絶対値の最大値で表される。成分の差が最も大きい次元のみに着目。ミンコフスキー距離のp→∞の極限に相当。 |
マハラノビス距離 | データの分布(共分散行列)を考慮した距離尺度。変数間の相関を考慮でき、外れ値検知などに利用される。 |
ヘリンジャー距離 | 2つの確率分布の類似度を測る距離尺度。外れ値の影響を受けにくい。機械学習での特徴量のヒストグラム比較などに用いられる。 |
ハミング距離 | 2つのベクトルで対応する要素が一致していない数で表される。カテゴリ変数のベクトル比較などに用いられる。 |
分布の距離尺度
名称 | 説明 |
---|---|
Histogram Intersection | (距離じゃなくて類似度)ヒストグラムのような離散値に使う。2つの分布の共通領域。 |
KL divergence | 相対エントロピーの概念に基づいて、2分布間の距離を算出(非対称) |
JS divergence | KLを改良してp,qに対称性をもたせたもの |
L1 norm | 連続的な分布における誤差の絶対値の和 |
L2 norm | 連続的な分布における二乗誤差の和 |
相互情報量(Mutual Information) | 2つの確率変数の依存関係の強さを測る尺度 |
最適輸送に基づく尺度
名称 | 説明 |
---|---|
Wasserstein距離(Wasserstein Distance) | 2つの確率分布間の最適輸送コストに基づく距離 |
Sinkhorn divergence | ワッサースタイン距離の正則化版 |
Gromov-Wasserstein距離(Gromov-Wasserstein Distance) | 異なる空間上の確率分布間の距離 |