More than 3 years have passed since last update.

機械学習評価指標

Posted at 2021-01-11

話者人数推定の精度評価の際に，機械学習における評価指標を調べた．
参考：Kaggleで勝つデータ分析の技術 | 門脇大輔, 阪田隆司, 保坂桂佑, 平松雄司 |本 | 通販 | Amazon
内容は機械学習の評価指標（まとめ）｜juki｜note によくまとまっている．
目的に応じて最適な評価指標が異なることに注意．

回帰における評価指標

RMSE

より大きな誤差を重要視する．外れ値の影響を受けやすいので，あらかじめ外れ値を除く．大きな誤差を許容したくないときに用いる．

MAE

外れ値の影響を低減できる．

RMSLE

正解ラベルと予測値の比率に着目．対数をとるにあたっては，真の値が０のときに値が負になるのを避けるため，１を加えてから対数を取る

決定係数

RMSEの最小化と同じ

二値分類における評価指標（正負）

混同行列

accuracy
error rate
precision（適合率）
recall（再現率）
F値

二値分類における評価指標（正である確率値）

logloss

自信を持った予測が外れたときにペナルティが大きくなる．予測値が正負ではなく，正である確率値のときに用いる．

AUC

ROC曲線の下側の面積. 正と予測する閾値を徐々に低くする．

多クラス分類における評価指標

基本は二値分類のときの評価指標で，それを多クラス用に拡張する．

multi-class accuracy
multi-class logloss
mean-F1, macro-F1, micro-F1: マルチラベル分類用
quadratic weighted kappa: クラス間に順序関係があるときに用いる．映画の評価を1~5のレーティングで表すなど．

教師なし学習における評価指標

※まだよく分かっていないです．

クラスタリングの場合

人手で正解データを作り，教師あり学習と同じような評価を行う

正解データが存在しない場合

学習結果をサンプリングして，人手で評価する．

話者人数推定における評価指標

教師なし学習であるため，人手で正解データを作り評価する．
タスクとしてはクラスタリングだが，通常のクラスタリングとは違い，クラスタ数を自分で決めるのではなく，クラスタ数も機械学習に決めてもらう．
また，結果も主観的なカテゴリなどではなく，1人や2人といった客観的なものである．
本タスクでは，1人を3人と予測した場合よりも，1人を2人と予測した場合の方がより高い精度と言いたいため，大きく予測を外した場合にはより大きなペナルティを課したい
以上より，評価のためには，quadratic weighted kappaを用いるのが良いのではないだろうか．自分も詳しくないので，本手法に関しては今度調べてみたい．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

機械学習 評価指標