話者人数推定の精度評価の際に,機械学習における評価指標を調べた.
参考:Kaggleで勝つデータ分析の技術 | 門脇 大輔, 阪田 隆司, 保坂 桂佑, 平松 雄司 |本 | 通販 | Amazon
内容は機械学習の評価指標(まとめ)|juki|note によくまとまっている.
目的に応じて最適な評価指標が異なることに注意.
回帰における評価指標
RMSE
より大きな誤差を重要視する.外れ値の影響を受けやすいので,あらかじめ外れ値を除く.大きな誤差を許容したくないときに用いる.
MAE
外れ値の影響を低減できる.
RMSLE
正解ラベルと予測値の比率に着目.対数をとるにあたっては,真の値が0のときに値が負になるのを避けるため,1を加えてから対数を取る
決定係数
RMSEの最小化と同じ
二値分類における評価指標(正負)
混同行列
- accuracy
- error rate
- precision(適合率)
- recall(再現率)
- F値
二値分類における評価指標(正である確率値)
logloss
自信を持った予測が外れたときにペナルティが大きくなる.予測値が正負ではなく,正である確率値のときに用いる.
AUC
ROC曲線の下側の面積. 正と予測する閾値を徐々に低くする.
多クラス分類における評価指標
基本は二値分類のときの評価指標で,それを多クラス用に拡張する.
- multi-class accuracy
- multi-class logloss
- mean-F1, macro-F1, micro-F1: マルチラベル分類用
- quadratic weighted kappa: クラス間に順序関係があるときに用いる.映画の評価を1~5のレーティングで表すなど.
教師なし学習における評価指標
※まだよく分かっていないです.
クラスタリングの場合
- 人手で正解データを作り,教師あり学習と同じような評価を行う
正解データが存在しない場合
- 学習結果をサンプリングして,人手で評価する.
話者人数推定における評価指標
- 教師なし学習であるため,人手で正解データを作り評価する.
- タスクとしてはクラスタリングだが,通常のクラスタリングとは違い,クラスタ数を自分で決めるのではなく,クラスタ数も機械学習に決めてもらう.
- また,結果も主観的なカテゴリなどではなく,1人や2人といった客観的なものである.
- 本タスクでは,1人を3人と予測した場合よりも,1人を2人と予測した場合の方がより高い精度と言いたいため,大きく予測を外した場合にはより大きなペナルティを課したい
- 以上より,評価のためには,quadratic weighted kappaを用いるのが良いのではないだろうか.自分も詳しくないので,本手法に関しては今度調べてみたい.