はじめに
知り合いから、以下のような質問を受けた。
人間の評定結果とAIによる評定結果の一致度を確認したい。評定結果は、順序尺度。何かよい統計手法はないか?
カッパ係数(Cohen's kappa statistic)が、今回やりたいことにあっていそうである。
回答するために、調べた情報をまとめておく。
ChatGPTでの情報収集結果
Weighted Kappa(加重カッパ係数)
■目的:
あなたとシステムの評価が偶然以上の一致をしているかを評価。
■特徴:
・標準的な Cohen's Kappa(カッパ係数)は完全一致のみを評価します。
・Weighted Kappa は評価の「近さ」も考慮できる(例えば、1と2の評価は1と4の評価よりも近いとする)。
■適用方法:
1. あなたの評価とシステムの評価をクロス表にまとめる。
2. 一致の重み付け(例: 線形または二次的な重み)を設定。
3. カッパ係数とその有意性を計算。
カッパ係数の分析を行う際には、カッパ係数、p値、信頼性区間の3つを合わせて確認することが非常に重要です。
- カッパ係数(Kappa Coefficient)
・役割: 評価者間の一致度を直接示す指標です。
・カッパ係数が1に近い場合、評価者間の一致が非常に高いことを示します。
・カッパ係数が0の場合、一致度が偶然によるものであることを示します。
・カッパ係数が負の場合、一致度が偶然以下である(一致より不一致が多い)ことを示します。
・注意点: カッパ係数だけで評価者間の一致度を解釈するのは不十分なことがあります。例えば、サンプルサイズが小さい場合やデータが偏っている場合、カッパ係数が高くてもその推定に不確実性があるかもしれません。- p値
・役割: カッパ係数が偶然の一致(帰無仮説)を超えているかどうかを検定するために使用されます。
・p値が小さい(通常0.05未満)の場合、帰無仮説を棄却し、評価者間の一致が偶然以上であることが示されます。
・p値が大きい場合、カッパ係数が偶然の一致と変わらない可能性が高いと判断されます。
・注意点: p値が小さいからといって、その結果が必ずしも信頼できるとは限りません。カッパ係数が高くても、信頼性区間やサンプルサイズによって結果の信頼性が異なる場合があります。- 信頼性区間(Confidence Interval, CI)
・役割: カッパ係数の推定に対する不確実性を示す指標です。カッパ係数だけでは、結果が偶然や標本誤差の影響をどれくらい受けているかを完全に理解することはできません。信頼性区間が狭いほど、カッパ係数の推定値は正確であり、広い場合は不確実性が大きいことを示します。
・信頼性区間が狭い場合、カッパ係数の推定値は安定しており、評価者間の一致度が非常に高いと解釈できます。
・信頼性区間が広い場合、サンプルサイズが小さい、またはデータが偏っている可能性があり、推定の不確実性が大きいことを意味します。
・注意点: 信頼性区間がゼロを含んでいる場合(例えば[−0.05, 0.90])、カッパ係数が偶然の一致と変わらない可能性があることを示唆します。このような場合、カッパ係数だけでは有意な一致があったと結論できません。
カッパ係数を活用するための参考情報
Rのvcdパッケージは、動作確認ができた。
Excelでの計算方法については、まだ確認できていない。