はじめての DualCSE：1文から「明示」と「含意」に立ち向かう

DualCSE

Posted at 2025-10-24

はじめての DualCSE：1文から「明示」と「含意」に立ち向かう

本記事は “One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations” をベースに、DualCSEについてまとめました。

TL;DR

DualCSE は 1つの文から 2つのベクトルを作ります。
- **r（explicit）**＝文字通りの意味
- **u（implicit）**＝言外・含意の意味
同じベクトル空間で r/u を学習するので、用途に合わせて使い分けできます。
例）FAQ検索で「婉曲な断り文句」もちゃんと拾いたい → クエリ側を u（含意）で照合
「曖昧さ（どれだけ言外か）」も簡単に数値化できます：implicitness = 1 − cos(r, u)

なぜ必要？（1文=1ベクトルの限界）

従来の文埋め込みは「1文=1ベクトル」。
しかし現実の文章には婉曲・暗黙がたくさんあります。

例）
A: 「今夜、飲みに行かない？」
B: 「明日早いんだ。」
→ 文字通りは「明日早い」。含意は「行きたくない（断り）」。

1つのベクトルに全部押し込むと、言外の意味が情報落ちしがちでした。

DualCSE のアイデア（直感で理解）

1文に対して2つ作るだけ：

r（explicit）：文字通り
u（implicit）：言外・含意

しかも同じ空間で学んでいるので、

検索で「明示だけ見る」「含意だけ見る」「両方見る」を選べる
曖昧さ（r と u のズレ）を数値で扱える

使い分けの例

CS/FAQ検索：クエリを u（含意）側で検索 → 婉曲な否定や遠回しな要望を拾いやすい

文書レビュー：「曖昧さ＝1 − cos(r, u)」が閾値超え → 要チェックとしてフラグ

学習はどうしてるの？（ざっくり）

データ：INLI という学習セット

1つの「前提文」に対して、以下4種類の仮説を用意：

explicit-entail（文字通りの含意）
implied-entail（言外の含意）
neutral（どちらとも言えない）
contradiction（矛盾）

目的（何を近づけ/離す？）

文間の関係：
- 前提の r ↔ explicit仮説の r を近づける
- 前提の u ↔ implied仮説の r を近づける
- 前提と矛盾仮説は離す
文内の関係（1文の r と u）：
- 「仮説内の r と u」は近い（曖昧さ少）
- 「前提の r と u」は離す（曖昧さあり）

ポイントは**“文間”と“文内”の両方を同時に最適化すること。これが新規性**です。

何が良くなる？（現場ユースの具体像）

業務例	従来の課題	DualCSE なら
FAQ/CS 検索	遠回しな否定・要望がヒットしづらい	u（含意）で照合 → 一次解決率UP
文書レビュー/監査	「適切/望ましい」等の曖昧表現の見落とし	曖昧度= `1−cos(r,u)` で自動フラグ
RAG（根拠検索）	根拠の拾い漏れ	r/uの両軸で照合 → 漏れ低減
リスク検知	“言い回し”に依存	[r‖u‖(r−u)‖cos(r,u)]を特徴量に追加

どれくらい効くの？（最低限の数字だけ）

RTE（含意判定）：DualCSE は SimCSE より平均精度が高い（RoBERTa版で80.18% など）。
EIS（含意度の大小当て）：INLI ではほぼ満点（〜100%）。
※タスク定義・数字は論文の実験結果に基づく概要です。詳細条件は原著をご参照ください。

どう使い分ける？（ミニ実装メモ）

含意も拾う検索（前提 p と仮説 h なら）
entail(p, h) = max( cos(r_p, r_h), cos(u_p, r_h) ) > γ
曖昧さスコア（1文 s のどれだけ言外？）
implicitness(s) = 1 − cos(r_s, u_s)

ざっくり言うと：「明示だけ」= r×r、「含意を拾う」= u×r、「曖昧さを見る」= r と u のズレ。

位置づけ（歴史のなかで見る）

Word2Vec：単語をベクトルに（語→ベクトル）
Sentence/Doc2Vec：文/文書をベクトルに
SimCSE：対照学習で「1文=1ベクトル」の質を底上げ
DualCSE：1文=2ベクトル（r/u）を同じ空間で学習し、文間＋文内の両制約で含意を扱いやすくした（“言外”に強い）

導入のコツ & 注意点

いつ u を使う？
- 「遠回しの否定・皮肉・婉曲」が効きそうなクエリ側を u にするのが直感的。
- 明示だけで十分な場面（定義照合など）は r でOK。
“曖昧さ”の扱い
- 1 − cos(r,u) は相対的な指標。しきい値は業務データで実験的に決めるのが現実的。
ドメイン適応
- 論文の学習は INLI が中心。自社ドメインで追加学習/蒸留すると安定度が増す可能性。

ChatGPTに聞いてみた

Q. これは sentence2vec（文ベクトル化）の一種？
A. はい。文埋め込みの一手法です。違いは1文=2ベクトル（r/u）にして含意を扱える点。

Q. SimCSE との関係は？
A. SimCSE は1文=1ベクトルを対照学習で良くする方法。DualCSE は2ベクトル＋文内/文間の制約で含意に強くしています。

まとめ

本論文は“文を数字のかたまり（ベクトル）で表す”技術に焦点があります。とはいえ実務では、意図や根拠は複数文にまたがることが多く、文単位だけでは取りこぼしが出やすいのも事実です。これからは、段落（paragraph-to-vector）や文書全体（documents-to-vector）という“より大きなまとまり”をそのままベクトルにして扱う流れが進むはずです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up