1.はじめに
今回は、自然言語処理で生成した文章の評価方法の1つである、BLEUスコアについてまとめます。
2.BLEUスコア
BLEUスコア(Bilingual Evaluation Understudy)は、翻訳タスクで使われる評価方法です。簡単に言うと、機械が生成した文が、どれだけ人間が翻訳した文に似ているかを測定します。その原理は、2つのシンプルな考え方に基づきます。
1)modified n_gram precision
機械の翻訳文に、人間の翻訳文にある単語がどれだけ網羅されているかの率$P_n$が高いほど良い評価とします。
2) brevity penalty
機械の翻訳文の単語数 c が人間の翻訳文の単語数 r より短いと modified n_gram precision が実力以上に良くなってしまうので、$e^{(1-\frac{r}{c})}$というペナルティ項を設けます。
これが、BLEUスコアの式です。$W_n$は、適当な重みです。