事実の自動評価

Posted at 2016-12-02

事実(fact)とは

ここでは、事実(fact)を次のような3つ組で表すとします。
<entity, relation, entity> です。

例えば、

Barack Obama is visiting Rome to attend the G8 Summit

のような文があり、既に固有表現抽出できている時に以下のような3つ組考えられるとします。

その中で実際に正しいものが太文字になっていますが、これらを自動で正しいと評価するという話です。

Automatic evaluation of relation extraction systems on large-scale では、ある何らかの事実抽出アルゴリズムを用いて抽出した事実が正しいのか、抽出されていないものの中で正しいものはないかを
次のように情報検索を使って推定しています。

このPMIの値がある事前に決めた閾値を上回ったものを正しいとします。

ちょっとしっかり調べていないので、閾値などをどう決めるかわからなかったのですがとりあえず数値を出してみます汗

そういえば、今年のSIGIR2017のオーガナイザーに酒井哲也教授がいます。

$$
\frac{272}{458} = 0.59 \cdots
$$

はい。。。。
他でも試してみないとわからないですね。。。

SIGIR が東京であります。
行きたいです。