Posted at

事実の自動評価

More than 1 year has passed since last update.


事実(fact)とは

ここでは、事実(fact)を次のような3つ組で表すとします。

<entity, relation, entity> です。

例えば、

Barack Obama is visiting Rome to attend the G8 Summit

のような文があり、既に固有表現抽出できている時に以下のような3つ組考えられるとします。

https://gyazo.com/67c7061e08f7ce2dd79f3921c8205e2d

その中で実際に正しいものが太文字になっていますが、これらを自動で正しいと評価するという話です。


自動評価の方法

Automatic evaluation of relation extraction systems on large-scale では、ある何らかの事実抽出アルゴリズムを用いて抽出した事実が正しいのか、抽出されていないものの中で正しいものはないかを

次のように情報検索を使って推定しています。

https://gyazo.com/b3dcc5e7241596ad223d7eeb2216bc0f

このPMIの値がある事前に決めた閾値を上回ったものを正しいとします。


実験

ちょっとしっかり調べていないので、閾値などをどう決めるかわからなかったのですがとりあえず数値を出してみます汗

そういえば、今年のSIGIR2017のオーガナイザーに酒井哲也教授がいます。


"Tetsuya Sakai" AND ("SIGIR 2017" OR "SIGIR2017")

https://gyazo.com/2ae6dadc57571cf1810da3abbad8ef0a


"Tetsuya Sakai" AND "organize" AND ("SIGIR 2017" OR "SIGIR2017")

https://gyazo.com/52a6b74faefe9029f9c1de532f4899a3


"Tetsuya Sakai" AND "general chairs" AND ("SIGIR 2017" OR "SIGIR2017")

https://gyazo.com/b508679c8163a46caa606e74fbeae531

$$

\frac{272}{458} = 0.59 \cdots

$$

はい。。。。

他でも試してみないとわからないですね。。。


まとめ

SIGIR が東京であります。

行きたいです。


参考