事実(fact)とは
ここでは、事実(fact)を次のような3つ組で表すとします。
<entity, relation, entity>
です。
例えば、
Barack Obama is visiting Rome to attend the G8 Summit
のような文があり、既に固有表現抽出できている時に以下のような3つ組考えられるとします。
その中で実際に正しいものが太文字になっていますが、これらを自動で正しいと評価するという話です。
自動評価の方法
Automatic evaluation of relation extraction systems on large-scale では、ある何らかの事実抽出アルゴリズムを用いて抽出した事実が正しいのか、抽出されていないものの中で正しいものはないかを
次のように情報検索を使って推定しています。
このPMIの値がある事前に決めた閾値を上回ったものを正しいとします。
実験
ちょっとしっかり調べていないので、閾値などをどう決めるかわからなかったのですがとりあえず数値を出してみます汗
そういえば、今年のSIGIR2017のオーガナイザーに酒井哲也教授がいます。
"Tetsuya Sakai" AND ("SIGIR 2017" OR "SIGIR2017")
"Tetsuya Sakai" AND "organize" AND ("SIGIR 2017" OR "SIGIR2017")
"Tetsuya Sakai" AND "general chairs" AND ("SIGIR 2017" OR "SIGIR2017")
$$
\frac{272}{458} = 0.59 \cdots
$$
はい。。。。
他でも試してみないとわからないですね。。。
まとめ
SIGIR が東京であります。
行きたいです。