[AWS感情分析選手権2026] Comprehend・Sonnet 4.6・Opus 4.8に"微妙な日本語"を感情分析させてみた

Posted at 2026-06-30

先に結論（3行）

明確な文は全員正解。差はつかない。
皮肉・照れ隠し・建前・自嘲など「微妙な文」になると Opus 4.8が圧勝（4/4）、Comprehendは1/4。
でもComprehendはオワコンじゃない。PIIマスキング等の大量・低コスト処理ではむしろ現役。要は適材適所。

Comprehendって最近聞きます？

数年前は感情分析といえば Amazon Comprehend だった気がするんですが、最近めっきり名前を聞かなくなった気がしませんか？廃止されたわけじゃないのに
…まぁ理由は薄々分かってます。たぶん LLMが賢くなりすぎた からですよね。
でも「たぶん」で終わらせるのは気持ち悪いので実際に殴り合わせてみました。

対戦カードはこちら。日本語の、それも 皮肉みたいな「微妙なニュアンス」 を含む8文で勝負です（+鹿児島弁の1問）。

Amazon Comprehend（感情分析の老舗・マネージド）
Claude Sonnet 4.6（Amazon Bedrock経由）
Claude Opus 4.8（Claude Code本体で直接分析）

前提2つ
① Opus 4.8だけクォータ制約の兼ね合いでBedrockのゲートを通せず、Claude Code本体で直接分析しています（Sonnetとは実行経路が違う点に注意）。
② Comprehendのスコアは確率出力（客観）、Claude側は自己申告（主観）なので参考値として見てください。

結論：判定一覧

まず結果から。各セルは「判定＋人間の判断分類と合っていたか ⭕❌」です。

Tier 1：明確な文

No	例文（全文）	人間分類	Comprehend	Sonnet 4.6	Opus 4.8
S1	今日のプレゼン、本当に分かりやすくて素晴らしかったです。みんな感動していました。	POSITIVE	POSITIVE ⭕	POSITIVE ⭕	POSITIVE ⭕
S2	今回の対応には本当にがっかりしました。説明も不十分で、二度と利用したくありません。	NEGATIVE	NEGATIVE ⭕	NEGATIVE ⭕	NEGATIVE ⭕
S3	本日の会議は午後2時から第3会議室で行います。資料は当日配布します。	NEUTRAL	NEUTRAL ⭕	NEUTRAL ⭕	NEUTRAL ⭕
S4	デザインはとても洗練されていて気に入っていますが、動作が重くて使い勝手はよくありません。	MIXED	MIXED ⭕	MIXED ⭕	MIXED ⭕

明確な文は 全員パーフェクト。ここはどのエンジンも余裕です。問題は次。

Tier 2：微妙な文

No	例文（全文）	人間分類	Comprehend	Sonnet 4.6	Opus 4.8
S5	まあ、悪くはないんじゃない。正直、期待してなかったぶん、ちょっと見直したかも。（肯定）	POSITIVE	MIXED ❌	MIXED ❌	POSITIVE ⭕
S6	へえ、また納期が延びたんだ。さすが安定のクオリティだね。毎回飽きさせてくれないよ、ほんと。（皮肉）	NEGATIVE	NEGATIVE ⭕	NEGATIVE ⭕	NEGATIVE ⭕
S7	うーん、面白いお話だとは思います。ただ、今このタイミングで進めるべきかは、何とも言えませんね。（並行）	NEUTRAL	MIXED ❌	MIXED ❌	NEUTRAL ⭕
S8	念願のプロジェクトに選ばれて光栄です。ただ、これから始まる怒涛の残業を思うと、素直に喜んでいいのか分かりませんね。（P＋N）	MIXED	POSITIVE ❌	MIXED ⭕	MIXED ⭕

分析エンジン	Tier 1	Tier 2	全体
Amazon Comprehend	4/4	1/4	63%
Claude Sonnet 4.6	4/4	2/4	75%
Claude Opus 4.8	4/4	4/4	100%

微妙な文に入ったらComprehendとSonnetに❌がポロポロ。Opusだけ上から下まで⭕で埋まりました。

サンプル8文の小規模検証ですあくまで傾向としてみてください。
特にTier2は人間でも受け止めがブレる部分なので

Tier 2で何が起きたのか？

皮肉（S6）はみんな読めた。 「さすが」「飽きさせない」と褒め言葉が並ぶ納期延期へのイヤミですが、全員NEGATIVEで正解。Comprehendも際どいながらネガに倒してきました。皮肉くらいなら老舗の意地で読める。

肯定（S5）でComprehendが転ぶ。 「悪くない」「期待してなかった」の否定語に引っ張られてMIXED判定。気持ちは分かるけど、本音は褒めてますよね。Opusは「核は"見直した"で評価は上方修正」と見抜いてPOSITIVE。

【おまけ】鹿児島弁、ちゃんと読めるの？

地元ネタとして1問だけ仕込んだのがこれ。本当は POSITIVE（親愛） の鹿児島弁です。

こら！おはんはわっぜせからしかが！おいはだれたじゃっどん、かんまんじゃ。おはんが好いちょっどな。

「こら！」「せからしか（うるさい）」「だれた（疲れた）」と表面は叱り言葉＆ネガ語のオンパレードですが、オチは「好いちょっどな（好きなんだよ）」。真意はまるごと親しみです。これを素直な標準語に言い換えたものを対照（S9-std）として用意し、結果を比べました。

No	例文（全文）	人間分類	Comprehend	Sonnet 4.6	Opus 4.8
S9	こら！おはんはわっぜせからしかが！おいはだれたじゃっどん、かんまんじゃ。おはんが好いちょっどな。	POSITIVE	NEGATIVE ❌	MIXED ❌	POSITIVE ⭕
S9-std	いつも手がかかるけど、あなたのことが本当に大好きなんだよ。	POSITIVE	POSITIVE ⭕	MIXED ❌	POSITIVE ⭕

面白いのがComprehend。鹿児島弁ではネガティブ判定なのに、標準語に直した途端POSITIVEに化けました。つまり内容自体はギリ読めていたのに、方言の表記でつまずいていた疑いが濃厚。一方Opusは方言版も標準語版も両方POSITIVE。分析コメントがこれです。

薩摩弁の「照れ隠しの愛情表現」。

……エモすぎません？ここまで言語化されると完敗を認めるしかない。

Comprehendは「オワコン」じゃない

ここまで見ると「やっぱLLM最強、Comprehend不要」となりがちですが、それは違うと思っています。

そもそも今回はComprehendに意地悪な土俵で戦わせただけで明確な文では満点。
しかもComprehendは感情分析だけのサービスじゃなく、エンティティ抽出・PII（個人情報）検出やマスキング・言語判定・カスタム分類 など用途が豊富です。
大量テキストを安定・低コストにバッチ処理 したいならまだまだ分があります。
LLMで全部やるとコストもレイテンシも跳ね上がりますからね。

要するに 適材適所。

ニュアンスの機微まで汲んでほしい → Claude（特にOpus）
大量テキストを安定・低コストで定型処理したい → Comprehend

個人的には、Opusが鹿児島弁を「照れ隠しの愛情表現」と読み解いてきたのが最大のびっくりポイントでした。皆さんもぜひ、自分の地元の方言でAIの"察し"を試してみてください。面白いですよ！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up