ROUGEスコア
『生成されたテキストの品質を評価するための指標』
スコアが高い場合、モデルがより良い概要を作成できたことを示します。
ユースケース
- 要約
- テキスト生成
の分野でよく使用され、参考テキストと生成テキストの一致度を評価します。
Bedrock で生成AIモデルの応答品質を評価する際、テキスト生成の一貫性 を測定するのにも利用されます。
BERTスコア
『モデルが生成したテキストと、参考となる正しいテキストの類似度を評価するための指標』
言い換えると、生成されたテキストと 1つ以上の基準テキストの間のセマンティック類似度 を評価します。
生成された文章が意味的に正確かどうかを判断するため、単語単位のマッチングだけでなく、 文全体の文脈 も考慮します。
例えば、「I am happy」 と 「I'm glad」 という文がある場合、BERTスコアはこれらが意味的に近いことを認識し、高いスコアを与えます。
BLEUスコア
『特に機械翻訳の環境で、機械が生成したテキストの品質を評価するために使用される指標』
適合率と簡潔さの両方を考慮して、生成されたテキストと 1つ以上の基準翻訳との間の類似度を測定します。
適合率
『陽性と予測された中で実際に陽性である割合』
例えば、スパムメールフィルタリングや医療診断などで、誤って陽性と判断されることが重大な影響を及ぼす場合、適合率を重視します。
誤って陽性と判定される「偽陽性」が大きな問題となるシナリオで特に重要です。