#分類モデル
分類モデルとは, 入力がどのクラスに属するのかを予測するためのモデルです.
#混同行列
分類モデルの評価でよく用いられるのが混同行列です.
混同行列の例を以下に示しておきます.
例では, クラスAのデータが500個, クラスBのデータが500個, 合計1000個の検証用データがあるものとします.
その検証用データに対して, 分類モデルによるクラス予測を行った結果についてまとめたものが混同行列になります.
もし, 分類モデルの精度が100%だったとしたら混同モデルは以下のようになります.
もう少し一般化して表現すると以下のようになります.
TA:モデルはクラスAと予測し, 正解(True)である
FA:モデルはクラスBと予測し, 不正解(False)である
TB:モデルはクラスBと予測し, 正解(True)である
FB:モデルはクラスBと予測し, **不正解(False)**である
#評価指標
それでは分類モデルの評価指標についていくつかまとめていきます.
##精度
精度は, データを正しく予測できた割合を示します.
精度はよく使う評価指標だと思いますが, クラスごとのデータ数に大きな差があるとあまり機能しません.
上手く機能しない例としては, 以下のような場合です.
クラスAのデータが極端に多すぎるので, 全てのデータに対してクラスAと予測すれば精度99%を達成してしまいます.
正しくラベル予測をして99%を達成した場合といい加減にラベル予測をして99%を達成した場合を見分けることができないのが問題ですね.
均衡なデータセットであれば, 精度を用いるのに問題はないと思います.
##適合率
適合率は, クラスAと予測したものの中で, 実際に正しく予測できた割合を示します.
間違ってクラスAと予測するのを防ぎたい場合に使います.
例をあげるなら, 商品の出荷において良品(=A)と悪品(=B)を分類する場合, 悪品(=B)を間違って良品(=A)と予測することを避けたいですよね. そういった場合に有効です.
##再現度
再現度は, 実際のクラスAのデータのうち, 正しくクラスAと予測された割合を示します.
間違ってクラスBと予測するのを防ぎたい場合に使います.
例をあげるなら, 健康診断で陰性(=A)と陽性(=B)を判断する場合, 本当は陰性(=A)なのに陽性(=B)と診断されてしまうと大問題になります. 健康診断では陰性の疑いがある人をすべて見つける必要があります. 間違って陰性と診断されたなら再診断をすれば済むのでまだ大丈夫ですが...
##F値
F値は適合度と再現率の調和平均です.
適合度と再現率はトレードオフの関係にあります. しかし, 片方だけではモデルを全体的に評価することができません.
そこで, F値はその2つをまとめた指標になります.
F値は適合率と再現度の両方を取り込んでいるため, 偏ったデータに対しては精度よりも有効な評価指標になりうるみたいです.