0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

[AWS感情分析選手権2026] Comprehend・Sonnet 4.6・Opus 4.8に"微妙な日本語"を感情分析させてみた

0
Posted at

先に結論(3行)

  • 明確な文は全員正解。差はつかない。
  • 皮肉・照れ隠し・建前・自嘲など「微妙な文」になると Opus 4.8が圧勝(4/4)、Comprehendは1/4。
  • でもComprehendはオワコンじゃない。PIIマスキング等の大量・低コスト処理ではむしろ現役。要は適材適所。

Comprehendって最近聞きます?

数年前は感情分析といえば Amazon Comprehend だった気がするんですが、最近めっきり名前を聞かなくなった気がしませんか? 廃止されたわけじゃないのに
…まぁ理由は薄々分かってます。たぶん LLMが賢くなりすぎた からですよね。
でも「たぶん」で終わらせるのは気持ち悪いので実際に殴り合わせてみました。
qiita.png

対戦カードはこちら。日本語の、それも 皮肉みたいな「微妙なニュアンス」 を含む8文で勝負です(+鹿児島弁の1問)。

  • Amazon Comprehend(感情分析の老舗・マネージド)
  • Claude Sonnet 4.6(Amazon Bedrock経由)
  • Claude Opus 4.8(Claude Code本体で直接分析)

前提2つ
① Opus 4.8だけクォータ制約の兼ね合いでBedrockのゲートを通せず、Claude Code本体で直接分析しています(Sonnetとは実行経路が違う点に注意)。
② Comprehendのスコアは確率出力(客観)、Claude側は自己申告(主観)なので参考値として見てください。

結論:判定一覧

まず結果から。各セルは「判定 + 人間の判断分類と合っていたか ⭕❌」です。

Tier 1:明確な文

No 例文(全文) 人間分類 Comprehend Sonnet 4.6 Opus 4.8
S1 今日のプレゼン、本当に分かりやすくて素晴らしかったです。みんな感動していました。 POSITIVE POSITIVE ⭕ POSITIVE ⭕ POSITIVE ⭕
S2 今回の対応には本当にがっかりしました。説明も不十分で、二度と利用したくありません。 NEGATIVE NEGATIVE ⭕ NEGATIVE ⭕ NEGATIVE ⭕
S3 本日の会議は午後2時から第3会議室で行います。資料は当日配布します。 NEUTRAL NEUTRAL ⭕ NEUTRAL ⭕ NEUTRAL ⭕
S4 デザインはとても洗練されていて気に入っていますが、動作が重くて使い勝手はよくありません。 MIXED MIXED ⭕ MIXED ⭕ MIXED ⭕

明確な文は 全員パーフェクト。ここはどのエンジンも余裕です。問題は次。

Tier 2:微妙な文

No 例文(全文) 人間分類 Comprehend Sonnet 4.6 Opus 4.8
S5 まあ、悪くはないんじゃない。正直、期待してなかったぶん、ちょっと見直したかも。(肯定) POSITIVE MIXED ❌ MIXED ❌ POSITIVE ⭕
S6 へえ、また納期が延びたんだ。さすが安定のクオリティだね。毎回飽きさせてくれないよ、ほんと。(皮肉) NEGATIVE NEGATIVE ⭕ NEGATIVE ⭕ NEGATIVE ⭕
S7 うーん、面白いお話だとは思います。ただ、今このタイミングで進めるべきかは、何とも言えませんね。(並行) NEUTRAL MIXED ❌ MIXED ❌ NEUTRAL ⭕
S8 念願のプロジェクトに選ばれて光栄です。ただ、これから始まる怒涛の残業を思うと、素直に喜んでいいのか分かりませんね。(P+N) MIXED POSITIVE ❌ MIXED ⭕ MIXED ⭕
分析エンジン Tier 1 Tier 2 全体
Amazon Comprehend 4/4 1/4 63%
Claude Sonnet 4.6 4/4 2/4 75%
Claude Opus 4.8 4/4 4/4 100%

微妙な文に入ったらComprehendとSonnetに❌がポロポロ。Opusだけ上から下まで⭕で埋まりました

サンプル8文の小規模検証ですあくまで傾向としてみてください。
特にTier2は人間でも受け止めがブレる部分なので

Tier 2で何が起きたのか?

皮肉(S6)はみんな読めた。 「さすが」「飽きさせない」と褒め言葉が並ぶ納期延期へのイヤミですが、全員NEGATIVEで正解。Comprehendも際どいながらネガに倒してきました。皮肉くらいなら老舗の意地で読める。

肯定(S5)でComprehendが転ぶ。 「悪くない」「期待してなかった」の否定語に引っ張られてMIXED判定。気持ちは分かるけど、本音は褒めてますよね。Opusは「核は"見直した"で評価は上方修正」と見抜いてPOSITIVE。

【おまけ】鹿児島弁、ちゃんと読めるの?

地元ネタとして1問だけ仕込んだのがこれ。本当は POSITIVE(親愛) の鹿児島弁です。

こら!おはんはわっぜせからしかが!おいはだれたじゃっどん、かんまんじゃ。おはんが好いちょっどな。

「こら!」「せからしか(うるさい)」「だれた(疲れた)」と表面は叱り言葉&ネガ語のオンパレードですが、オチは「好いちょっどな(好きなんだよ)」。真意はまるごと親しみです。これを素直な標準語に言い換えたものを対照(S9-std)として用意し、結果を比べました。

No 例文(全文) 人間分類 Comprehend Sonnet 4.6 Opus 4.8
S9 こら!おはんはわっぜせからしかが!おいはだれたじゃっどん、かんまんじゃ。おはんが好いちょっどな。 POSITIVE NEGATIVE ❌ MIXED ❌ POSITIVE ⭕
S9-std いつも手がかかるけど、あなたのことが本当に大好きなんだよ。 POSITIVE POSITIVE ⭕ MIXED ❌ POSITIVE ⭕

面白いのがComprehend。鹿児島弁ではネガティブ判定なのに、標準語に直した途端POSITIVEに化けました。つまり内容自体はギリ読めていたのに、方言の表記でつまずいていた疑いが濃厚。一方Opusは方言版も標準語版も両方POSITIVE。分析コメントがこれです。

薩摩弁の「照れ隠しの愛情表現」。

……エモすぎません? ここまで言語化されると完敗を認めるしかない。

Comprehendは「オワコン」じゃない

ここまで見ると「やっぱLLM最強、Comprehend不要」となりがちですが、それは違うと思っています。

そもそも今回はComprehendに意地悪な土俵で戦わせただけで明確な文では満点。
しかもComprehendは感情分析だけのサービスじゃなく、エンティティ抽出・PII(個人情報)検出やマスキング・言語判定・カスタム分類 など用途が豊富です。
大量テキストを安定・低コストにバッチ処理 したいならまだまだ分があります。
LLMで全部やるとコストもレイテンシも跳ね上がりますからね。

要するに 適材適所

  • ニュアンスの機微まで汲んでほしい → Claude(特にOpus)
  • 大量テキストを安定・低コストで定型処理したい → Comprehend

個人的には、Opusが鹿児島弁を「照れ隠しの愛情表現」と読み解いてきたのが最大のびっくりポイントでした。皆さんもぜひ、自分の地元の方言でAIの"察し"を試してみてください。面白いですよ!

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?