This article is a Private article. Only a writer and users who know the URL can access it.
Please change open range to public in publish setting if you want to share this article with other users.

AWS Certified AI Practitioner（AIF）対策：ROUGE・BERT・BLEUスコア・適合率

Last updated at 2025-01-26Posted at 2024-11-26

ROUGEスコア

『生成されたテキストの品質を評価するための指標』

スコアが高い場合、モデルがより良い概要を作成できたことを示します。

ユースケース

要約
テキスト生成

の分野でよく使用され、参考テキストと生成テキストの一致度を評価します。

Bedrock で生成AIモデルの応答品質を評価する際、テキスト生成の一貫性　を測定するのにも利用されます。

BERTスコア

『モデルが生成したテキストと、参考となる正しいテキストの類似度を評価するための指標』

言い換えると、生成されたテキストと 1つ以上の基準テキストの間のセマンティック類似度　を評価します。

生成された文章が意味的に正確かどうかを判断するため、単語単位のマッチングだけでなく、 文全体の文脈 も考慮します。

例えば、「I am happy」 と 「I'm glad」 という文がある場合、BERTスコアはこれらが意味的に近いことを認識し、高いスコアを与えます。

BLEUスコア

『特に機械翻訳の環境で、機械が生成したテキストの品質を評価するために使用される指標』

適合率と簡潔さの両方を考慮して、生成されたテキストと 1つ以上の基準翻訳との間の類似度を測定します。

適合率

『陽性と予測された中で実際に陽性である割合』

例えば、スパムメールフィルタリングや医療診断などで、誤って陽性と判断されることが重大な影響を及ぼす場合、適合率を重視します。

誤って陽性と判定される「偽陽性」が大きな問題となるシナリオで特に重要です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up