何をしたいか
重み付きk係数を理解したい。
k係数とはなにか
観察者間の一致度を測る評価指標の一つ。Cohen's kappa(コーエンのk係数)と呼ばれたり、カッパ係数と呼ばれたりする。正解データと、AIの推測値の一致度を評価することもできる。
\begin{align}
k&=\dfrac{\Sigma _{i}O_{i,i}-\Sigma _{i}E_{i・,・i}}{1-\Sigma _{i}E_{i・,・i}}\\&=1-\dfrac{1-\Sigma _{i}O_{i,i}}{1-\Sigma _{i}E_{i・,・i}}
\end{align}
変数の説明
病気をGrade1〜3で評価した、以下のようなデータを仮定する。
- Grade1 -> Grade2 -> Grade3の順番に程度が悪化していく。
- 横方向が医師A、縦方向が医師Bの判断。
Grade1 | Grade2 | Grade3 | 合計 | |
---|---|---|---|---|
Grade1 | 32 | 0 | 5 | 37 |
Grade2 | 0 | 19 | 1 | 20 |
Grade3 | 9 | 0 | 34 | 43 |
合計 | 41 | 19 | 40 | 100 |
O (Observed)
このケースにおいて、医師Aの判断が医師Bの判断と一致した割合
\begin{align}
\Sigma _{i}O_{i,i} &= \frac{32}{100} + \frac{19}{100} + \frac{34}{100}\\ &= 0.85
\end{align}
E (Expected)
このケースに限らず、医師Aの判断が医師Bの判断と一致するであろう確率
\begin{align}
\Sigma _{i}E_{i・,・i} &= \frac{37}{100} \times \frac{41}{100} + \frac{20}{100} \times \frac{19}{100} + \frac{43}{100} \times \frac{40}{100}\\&= 0.36
\end{align}
k係数を計算する
したがって、
\begin{align}
k&=\dfrac{\Sigma _{i}O_{i,i}-\Sigma _{i}E_{i・,・i}}{1-\Sigma _{i}E_{i・,・i}}\\&=\dfrac{0.85-0.36}{1-0.36}\\&=0.77
\end{align}
k係数の評価
Landis and Kochの基準では、
0.0〜0.2: わずかに一致(slight agreement)
0.21〜0.40 まずまずの一致(fair agreement)
0.41〜0.60 中等度の一致(moderate agreement)
0.61〜0.80 かなりの一致(substantial agreement)
0.81〜1.0 ほぼ完全、完全一致(almost perfect or perfect agreement)
Krippendorffの基準では
0.67未満 評価しない(discounted)
0.67〜0.80 不確かな結果(conclusions tentatively)
0.80以上 明確な結果(definite conclusions)
なので、0.77は比較的まともな数値に見えます。(参考2)
しかし、Grade1とGrade3の取り違えはかなりおかしい。
k係数の問題
-
クラスが3以上ある場合に、少しでも値がずれていたらハズレとしてしまうと、近い値をとった場合も、遠い値をとった場合も、同様にハズレとして評価されてしまい望ましくない。医師がGrade1だGrade2だと争うよりも、Grade1だGrade3だと争うほうが一致率は低いのに、これが反映されにくい。
-
遠い値をとった場合(k=0.76)
Grade1 | Grade2 | Grade3 | 合計 | |
---|---|---|---|---|
Grade1 | 32 | 0 | 5(*) | 37 |
Grade2 | 0 | 19 | 1 | 20 |
Grade3 | 9(*) | 0 | 34 | 43 |
合計 | 41 | 19 | 40 | 100 |
- 近い値をとった場合(k=0.77)
Grade1 | Grade2 | Grade3 | 合計 | |
---|---|---|---|---|
Grade1 | 32 | 5(*) | 0 | 37 |
Grade2 | 0 | 19 | 1 | 20 |
Grade3 | 0 | 9(*) | 34 | 43 |
合計 | 32 | 34 | 35 | 100 |
重み付きk係数とはなにか
単純なk係数で現れる問題を解消するための工夫として重みを使った評価指標。kaggleのEvaluationで説明されていたり、医療の分野で見られたりと、比較的有名。Weighted Kappa。特に3クラス以上あるとき、セルの重みをquadraticに見る場合、Quadratic Weighted Kappaとも。
k=1-\dfrac{\Sigma _{i,j}{w_{i,j}x_{i,j}}}{\Sigma _{i,j}{w_{i,j}m_{i,j}}}
変数の説明
「遠い値をとった場合」のマトリックスを使って考える。
w (weight)
マトリックスのそれぞれのセルの重み。kはクラス数。(注1)
w_{i,j}=(i - j)^2
例えば、医師AがGrade1、医師BがGrade3と判断したセルの重みは、
\begin{align}
w_{1,3}&=(1 - 3)^2\\&=4
\end{align}
これを表にすると、
Grade1 | Grade2 | Grade3 | |
---|---|---|---|
Grade1 | 0 | 1 | 4 |
Grade2 | 1 | 0 | 1 |
Grade3 | 4 | 1 | 0 |
x (Observed)
このケースにおいて、医師Aの判断が医師Bの判断と一致した割合。医師AがGrade1、医師BがGrade3と判断した割合は、
x_{1,3}=\dfrac{5}{100}
m (Expected)
このケースに限らず、医師Aの判断が医師Bの判断と一致するであろう確率。医師AがGrade1、医師BがGrade3と判断する確率は、
\begin{align}
m_{1,3}&=\dfrac{37}{100}\times\dfrac{40}{100}\\&=\dfrac{1480}{10000}
\end{align}
k係数を計算する
それぞれのケースで計算する。
- 遠い値をとった場合(k=0.51)
Grade1 | Grade2 | Grade3 | 合計 | |
---|---|---|---|---|
Grade1 | 32(×0) | 0(×1) | 5(×4) | 37 |
Grade2 | 0(×1) | 19(×0) | 1(×1) | 20 |
Grade3 | 9(×4) | 0(×1) | 34(×0) | 43 |
合計 | 41 | 19 | 40 | 100 |
- 近い値をとった場合(k=0.89)
Grade1 | Grade2 | Grade3 | 合計 | |
---|---|---|---|---|
Grade1 | 32(×0) | 5(×1) | 0(×4) | 37 |
Grade2 | 0(×1) | 19(×0) | 1(×1) | 20 |
Grade3 | 0(×4) | 9(×1) | 34(×0) | 43 |
合計 | 32 | 33 | 35 | 100 |
遠い値をとっている場合を、より低い値として評価できています。
実装してみた
import numpy as np
a = [2, 0, 2, 2, 0, 1]
b = [0, 0, 2, 2, 0, 2]
def main():
assert_len(a, b)
cls_cnt = count_class(a, b)
total = count_total(a)
weight = get_weight(cls_cnt)
matrix = get_matrix(a, b, cls_cnt)
x = calc_x(matrix, total)
m = calc_m(matrix, total)
score = get_score(weight, x, m)
print(score)
def assert_len(a, b):
assert len(a) == len(b)
def count_class(a, b):
return len(set(a+b))
def count_total(a):
return len(a)
def get_weight(cls_cnt):
weight = np.zeros((cls_cnt, cls_cnt), dtype=np.float32)
for i in range(cls_cnt):
for j in range(cls_cnt):
weight[i][j] = np.square(i - j)
return weight
def get_matrix(a, b, cls_cnt):
matrix = np.zeros((cls_cnt, cls_cnt), dtype=np.float32)
for i, j in zip(a, b):
matrix[i][j] += 1
return matrix
def calc_x(matrix, total):
return matrix / total
def calc_m(matrix, total):
sum_a = np.sum(matrix, axis=1)
sum_b = np.sum(matrix, axis=0) # weightが対称行列なので本当は軸の順番はどうでもいい
m = np.outer(sum_a, sum_b) / np.square(total)
return m
def get_score(weight, x, m):
return 1 - np.sum(weight * x) / np.sum(weight * m)
if __name__ == '__main__':
main()
Scikit-Learnに実装されてます
- こっちを使ったほうがいいです。
- 3.3.2.4. Cohen’s kappa
- sklearn.metrics.cohen_kappa_score
>>> from sklearn.metrics import cohen_kappa_score
>>> y_true = [2, 0, 2, 2, 0, 1]
>>> y_pred = [0, 0, 2, 2, 0, 2]
>>> cohen_kappa_score(y_true, y_pred)
0.4285714285714286
このcohen_kappa_score関数に、weights="quadratic"と引数を加えるといい。
最後に
-
評価値が連続した性質のものであれば、重み付きk係数を使うことは有効だが、各クラスが完全に独立していると意味不明な出力になってしまう。
-
連続変数だとしても、それぞれのクラスの隔たりの程度は同じでない場合もあると思う。例えば、果物の腐り具合を、腐っている部位の割合で表現した場合を考える。1割くらい腐っていたら食べられたものではなく、
-
腐っていない(腐っている部位0%)
-
腐りかけ(腐っている部位10%)
-
腐っている(腐っている部位100%)
などとクラス分けする可能性があるかもしれない。そんな場合は重みの計算をアレンジしたほうが良いかと思う。
- 頑張って調べたが、結局wikiが一番丁寧だった。
注
参考(1)のページは、参考(2)に従って重みをつけている。
w_{i,j}=\dfrac{(i - j)^2}{(k-1)^2}
これに対して、scikit-learnの実装は、Weighted Kappaのオリジナルである参考(6)(リンク切れで確認できず)を参考にしている。このページでは、参考(6)に従った。
注2
実はWeighted Kappaのオリジナルは参考(7)であって、Kappaのオリジナルである参考(6)ではない。
参考
(1) κ係数によるreproducibilityの評価 | 大阪大学腎臓内科
(2) Measurement of Observer Agreement
(3) 重み付きカッパ係数―順序尺度の場合のカッパ係数
(4) コーエンのκ係数
(5) 信頼性評価指標としてのk係数の性質について
(6) J. Cohen (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20(1):37-46. doi:10.1177/001316446002000104.
(7) Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit". Psychological Bulletin. 70 (4): 213–220. doi:10.1037/h0026256. PMID 19673146.