AI検索の「完璧な夢」は終わった：埋め込みモデルが絶対に見つけられない文書がある理由

Posted at 2026-01-18

はじめに：完璧な検索システムは存在しない？

「この質問に関連するすべての文書を見つけてください」

AIを使った検索システム（リトリーバー）に、こんな依頼をしたことはありませんか？実は、どんなに優秀なAI検索システムでも、すべての関連文書を確実に見つけられるわけではないという、数学的に証明された限界があることが、Googleとジョンズ・ホプキンス大学の最新研究で明らかになりました。

この研究は、「完璧な検索システム」を目指すことが、そもそも不可能であることを数学的に証明した重要な発見です。本記事では、この研究の内容を、技術的な背景知識がない方にも分かりやすく解説します。

検索システムの2つの顔：キーワード vs 埋め込み
数学が証明した「不可能」：なぜ埋め込みモデルには限界があるのか
実験が明らかにした衝撃の事実：埋め込みサイズを10倍にしても限界は存在する
実用上は大丈夫？それとも問題？限界との向き合い方
おわりに：完璧を求めず、適切な期待を持つ時代

1. 検索システムの2つの顔：キーワード vs 埋め込み

1-1. リトリーバーという名の「文書探偵」

想像してみてください。あなたは5万冊の図書館で、特定の情報を探しています。

「リンゴとコアラが好きな人は誰？」

この質問に対して、図書館全体をくまなく調べて、関連する本を見つけ出す。これが**リトリーバー（Retriever）**の仕事です。リトリーバーは、大量の文書データベースから、ユーザーの質問に関連する文書を「検索」して見つけ出すシステムです。

しかし、この「検索」の方法には、実は2つの全く異なるアプローチがあります。そして、その違いが、今回の研究の発見につながっているのです。

1-2. 伝統的な方法：キーワード検索の世界

まずは、私たちが最も馴染みのある方法から見てみましょう。

キーワードベースの検索は、質問に含まれる単語（キーワード）が文書に含まれているかをチェックする方法です。例えば：

質問：「リンゴ」
検索方法：「リンゴ」という文字列を含む文書をすべて探す
代表例：BM25という従来の検索アルゴリズム

これは、Google検索の初期の仕組みと同じです。シンプルで分かりやすく、そして非常に効果的です。実際、今回の研究でも、BM25は90%という高い性能を記録しています。

1-3. 現代の方法：埋め込み検索の世界

一方、埋め込みベースの検索は、AI技術を使った、より「賢い」検索方法です。

この方法では、質問と文書を**数値のベクトル（埋め込み）**に変換します。そして、そのベクトル同士の「距離」や「類似度」を計算して、最も近い文書を返します。

例えば：

質問：「リンゴが好きな人は？」
処理：質問を数値ベクトル（例：[0.2, -0.5, 0.8, ...]）に変換
検索：各文書も数値ベクトルに変換済み → 最も近いベクトルを持つ文書を返す

この方法の優れている点は、意味的な類似性を捉えられることです。「リンゴ」と「アップル」は文字列としては異なりますが、意味的には同じなので、埋め込み空間では近い位置に配置されます。

1-4. 埋め込みモデルはどうやって「学習」するのか？

埋め込みベースのリトリーバーは、**対照学習（Contrastive Learning）**という方法で学習します。

簡単に言うと：

学習データ：質問と、その質問に関連する文書・関連しない文書のペアを大量に用意
学習目標：
- 質問と関連文書の埋め込みを「近く」配置する
- 質問と関連しない文書の埋め込みを「遠く」配置する
結果：学習後、質問の埋め込みに最も近い文書の埋め込みを持つ文書が、関連文書として返される

まるで、質問と文書を「意味の地図」上に配置するようなイメージです。

1-5. 単一埋め込み vs 複数埋め込み：2つの戦略

ここで重要な区別があります：

単一埋め込み：1つの質問や文書に対して、1つの埋め込みベクトルを生成（多くの現代のAI検索システムが採用）
複数埋め込み：1つの質問や文書に対して、複数の埋め込みベクトルを生成（例：ColBERT - 各単語ごとに埋め込みを生成）

今回の研究は、単一埋め込みリトリーバーの限界を明らかにしたものです。 そして、この限界は、数学的に証明された、避けられない事実なのです。

2. 数学が証明した「不可能」：なぜ埋め込みモデルには限界があるのか

2-1. 理想と現実の残酷なギャップ

まず、理想的な状況を想像してみましょう。

理想：単一埋め込みリトリーバーは、データベース内のあらゆる文書の組み合わせを検索できるべきです。例えば、「XとYについての文書（ただしZは除く）」という複雑な質問にも、完璧に対応できるべきです。

しかし、現実は違います。

現実：文書数が増えると、埋め込み空間（数値ベクトルが存在する空間）の中で、2つの文書が非常に離れた位置に配置されることが避けられません。そして、1つの質問の埋め込みは、埋め込み空間内の1つの点にしか存在できません。

その結果、離れた2つの文書の両方に「最も近い」質問埋め込みを作ることは、数学的に不可能になるのです。

2-2. 具体例で理解する：埋め込み空間の「距離の壁」

図を見てください。これは、埋め込み空間を2次元で簡略化した概念図です。

文書Aと文書Bが、埋め込み空間内で離れた位置に配置されているとします
質問の埋め込み（Q1, Q2, Q3）を配置しようとしますが...

問題点：

Q1を文書Aに近づけると、文書Bから遠ざかってしまいます
Q2を文書Bに近づけると、文書Aから遠ざかってしまいます
Q3を中間に配置すると、実は 文書C（非関連） の方が近くなってしまいます

つまり、1つの質問埋め込みでは、離れた2つの文書の両方に「最も近い」位置に来ることは、幾何学的に不可能なのです。

これは、2次元の地図上で「東京と大阪の両方に最も近い地点」を見つけようとするようなものです。そのような地点は存在しません。

2-3. 埋め込みサイズを大きくすれば解決する？

「それなら、埋め込みサイズを大きくすれば解決するのでは？」

これは、多くの人が考える疑問です。確かに、埋め込みサイズが大きいほど、より多くの情報を表現できるため、より多くの文書ペアを区別できるようになります。

しかし、埋め込みサイズを大きくしても、限界は存在するのです。リトリーバーが検索できる異なる文書ペアの数は、埋め込みサイズによって根本的に制限されるという、数学的に証明された事実です。

3. 実験が明らかにした衝撃の事実：埋め込みサイズを10倍にしても限界は存在する

3-1. 2つの実験で検証された「限界」

研究者は、この理論的な限界を実証するために、2つの異なる実験を行いました。

実験1：理想的な条件下での限界測定

目的：埋め込みモデルの限界を、理想的な条件下で測定する

方法：

埋め込みモデルを使わず、学習可能なベクトルを直接使用（埋め込みモデルの限界を排除）
埋め込みサイズを変えながら（46未満のサイズを試した）、各サイズに対して学習可能な文書埋め込みのセットを構築
各可能な文書ペアに対して、対応する学習可能な質問埋め込みを作成（初期値はランダム）
勾配降下法で最適化し、各文書ペアの埋め込みが質問埋め込みにより高い類似度を持つように調整
文書数を徐々に増やし、一定の閾値を超えると最適化を続けても性能が向上しないことを確認

この実験は、「最良の条件下でも、限界があるのか？」を検証するものです。埋め込みモデルの学習能力の限界を排除し、純粋に埋め込み空間の幾何学的制約を測定しました。

実験2：実際のリトリーバーでの検証

目的：既存の実用的なリトリーバーで、この限界が実際に現れるかを確認する

方法：

5万件の文書と1,000件の質問を作成
各質問には、正確に2つの関連文書がある
46件の文書を「関連文書プール」として選択（46件の文書から2つを選ぶ組み合わせは1,035通り → 1,000件の質問に対応可能）
残りの49,954件は「妨害文書（distractors）」
既存のリトリーバー（Promptriever、GritLM、Gemini Embeddingsなど）で性能を測定

データセットの設計：

各文書は人物とその好みを記述（例：「Jon likes apples and quokkas」）
各質問は「Who likes X?」という形式
言語は極めて単純（否定なし、曖昧さなし、長い文脈なし）
46文書が選択された理由：46は、2つの組み合わせが1,000を超える最小の数（46C2 = 1,035通り）

この実験は、「実際のシステムでも、限界が現れるのか？」を検証するものです。意図的に単純な言語を使用したにもかかわらず、単一埋め込みリトリーバーは苦戦しました。 これは、問題が言語の複雑さではなく、埋め込み空間の幾何学的制約にあることを示しています。

3-2. 実験1の結果：3乗の関係という衝撃の発見

最良ケースの実験では、驚くべき結果が得られました。

3乗の関係：埋め込みサイズを2倍にしても、検索可能な文書数は8倍にしかならない

関係性：検索可能な2文書の組み合わせ数は、埋め込みサイズの3乗にほぼ比例（r² = 0.999、ほぼ完全な相関）

研究者は、3乗の多項式をデータにフィットさせ、より大きな埋め込みサイズに外挿しました。これは、埋め込みサイズを2倍にすると、検索可能な文書数は2³ = 8倍になることを意味します。しかし、埋め込みサイズを10倍にしても、検索可能な文書数は10³ = 1,000倍にしかならないのです。

具体的な数値：現実的な限界

埋め込みサイズ	検索可能な文書数の上限（概算）
512次元	約50万件
768次元	約170万件
1,024次元	約400万件
3,072次元	約1億700万件
4,096次元	約2億5,000万件

重要な発見：

埋め込みサイズを大きくしても、完全に検索できる文書ペアの数には上限がある
この上限を超えると、最適化を続けても性能が向上しない
4,096次元という大きな埋め込みサイズでも、約2億5,000万件が上限

3-3. 実験2の結果：実際のシステムでも限界が現れた

実際のリトリーバーでの実験では、理論的な限界が実際のシステムでも現れることが確認されました。

性能比較：キーワード検索が圧勝

リトリーバー	埋め込みサイズ	パラメータ数	性能（Recall@100）
BM25（キーワードベース）	-	-	約90%
ModernColBERT（複数埋め込み）	-	-	約65%
Promptriever Llama3	4,096次元	80億	約19%
GritLM	4,096次元	70億	約16%
Gemini Embeddings	4,096次元	非公開	約10%

衝撃的な発見：

単一埋め込みリトリーバーは、すべて低い性能（10-19%）
BM25（キーワードベース）が最も高い性能（約90%）
ModernColBERT（複数埋め込み）は中間的な性能（約65%）

なぜ単一埋め込みリトリーバーが苦戦したのか？

実験で使用したデータセットは、意図的に難しいタスクに設計されていました：

46件の関連文書から、あらゆる2文書の組み合わせが正解になる可能性がある
46件から2つを選ぶ組み合わせは 1,035通り
つまり、1,000件の質問それぞれが、異なる2文書の組み合わせを求めている
このような「多様な関連文書の組み合わせ」を、単一埋め込みで表現するのは困難

これは、現実世界でも起こりうる状況です（「XとYについて（Zは除く）」のような複雑な質問）。

4. 実用上は大丈夫？それとも問題？限界との向き合い方

4-1. この限界は「問題」なのか？実用的な視点から考える

結論：理論的な限界は存在するが、実用上は深刻な問題ではないことが多い

実用上は問題になりにくい理由

ユーザーの質問は通常、関連性が高い：実際のユーザーは、複雑な組み合わせを求めないことが多く、関連する文書同士は埋め込み空間内で近い位置に配置される傾向がある
日常的な検索タスクは限界を下回る：多くの実用的な検索システムは、理論的な限界を下回る規模で動作している（例：埋め込みサイズ512で約50万件まで対応可能）

限界が問題になるケース

以下のケースでは、限界が実際の問題になる可能性があります：

エージェント型検索システム：AIエージェントが複数回にわたって検索を繰り返す場合
大規模データベース：数億件を超える文書を扱う場合
複雑な質問：複数の条件を組み合わせた質問

4-2. 解決策と代替アプローチ：限界を超える4つの方法（とその制約）

限界が問題になる場合、以下のような解決策があります。しかし、重要なのは、これらの解決策にも制約があることです。完璧な解決策は存在しません。

1. 複数埋め込みの活用：ColBERTのアプローチ

ColBERTのような、1つの文書や質問に対して複数の埋め込みを生成する手法は、単一埋め込みの限界を克服する有効な方法です。

メリット：

仕組み：各単語ごとに埋め込みを生成
柔軟性：単一埋め込みより柔軟性が高い
性能：実験結果でも、ModernColBERTは単一埋め込みより高い性能（65%）を示した

制約と限界：

ストレージコストの増大：各文書に対して複数の埋め込みを保存する必要があるため、ストレージコストが大幅に増加する
計算コストの増大：検索時に複数の埋め込みを比較する必要があるため、計算コストが高くなる
完全な解決ではない：実験結果でも65%の性能であり、BM25の90%には及ばない
スケーラビリティの課題：大規模なデータベースでは、ストレージと計算コストがさらに増大する

2. エージェント型検索（Agentic Retrieval）：複数回の検索でカバー

仕組み：AIエージェントが、検索を複数回繰り返す

1回目の検索で関連文書の候補を見つける
2回目の検索で、さらに詳細な情報を探す
必要に応じて、追加の検索を実行

メリット：

1回の検索では見つけられない組み合わせも、複数回の検索でカバー可能
段階的に検索範囲を絞り込める

制約と限界：

レイテンシーの増大：複数回の検索が必要なため、応答時間が長くなる
コストの増大：検索回数が増えるほど、APIコストや計算コストが増加する
複雑性の増大：エージェントの動作を制御・デバッグするのが難しい
完全な保証はない：複数回の検索でも、すべての関連文書を見つけられる保証はない

3. ハイブリッドアプローチ：最良の方法を組み合わせる

キーワードベース + 埋め込みベースの組み合わせは、それぞれの弱点を補完する有効な方法です。

メリット：

実験結果でも、BM25（キーワードベース）が最も高い性能（90%）を示した
両方の手法を組み合わせることで、より堅牢な検索システムを構築できる
キーワード検索の正確性と、埋め込み検索の意味理解を両立できる

制約と限界：

システムの複雑性：複数の検索手法を統合する必要があるため、システムが複雑になる
メンテナンスコスト：複数の手法を維持・更新する必要があるため、メンテナンスコストが高い
結果の統合方法：複数の検索結果をどう統合するか（重み付け、ランキングなど）が課題
根本的な限界は残る：各手法の限界は残るため、完全な解決にはならない

4. 埋め込みサイズの最適化：タスクに応じた選択

タスクに応じた適切な埋め込みサイズを選択することで、限界を回避できます。

メリット：

小規模なデータベースでは、大きな埋め込みサイズは不要
大規模なデータベースでは、より大きな埋め込みサイズが必要
コストと性能のバランスを最適化できる

制約と限界：

根本的な限界は解決されない：埋め込みサイズを大きくしても、3乗の関係による限界は存在する
コストの増大：埋め込みサイズを大きくすると、ストレージコストと計算コストが増加する
限界に達する可能性：非常に大規模なデータベースでは、限界に達する可能性がある
最適化の難しさ：タスクに応じた最適な埋め込みサイズを見つけるのは難しい

4-3. エンジニアへの示唆：実践的なアドバイス

重要な認識：これらの解決策は、単一埋め込みリトリーバーの限界を「緩和」するものであり、「完全に解決」するものではありません。各解決策には、コストの増大、複雑性の増大、性能の限界などの制約があります。

1. 現実的な期待を持つ

単一埋め込みリトリーバーが「すべての関連文書を確実に見つけられる」わけではないことを理解する
タスクの複雑さとデータベースの規模に応じて、適切な手法を選択する
完璧を求めず、実用的な性能目標を設定する

2. 評価指標の重要性

Recall@K（上位K件に正解が含まれる割合）などの評価指標を適切に設定
理論的な限界を理解した上で、実用的な性能目標を設定する

3. 複数の手法を組み合わせる

単一の手法に依存せず、複数の検索手法を組み合わせる
キーワードベース、埋め込みベース、複数埋め込みなどを、用途に応じて使い分ける
コストと性能のバランスを考慮する

5. おわりに：完璧を求めず、適切な期待を持つ時代

5-1. 研究がもたらした重要な発見

この研究は、リトリーバーの理論的な限界を数学的に証明した重要な成果です。これにより、現実的な期待設定、適切な設計判断、代替手法の検討が可能になりました。

5-2. 実用上のメッセージと技術者への示唆

実用上のポイント：

理論的な限界は存在するが、実用上は深刻な問題ではないことが多い。ユーザーは通常、関連性の高い情報を求めるため、日常的な検索タスクは限界を下回る傾向にあります。
エージェント型検索システムが成長するにつれて、この限界がより重要になる可能性があります。

解決策の制約：

解決策を採用しても、完全に限界を「解決」できるわけではありません。各解決策には、コストの増大、複雑性の増大、性能の限界などの制約があります。

技術者へのメッセージ：

限界を理解する：単一埋め込みリトリーバーには理論的な限界があることを認識する
適切な手法を選択する：タスクの規模と複雑さに応じて、最適な検索手法を選択する。キーワード検索が最適な場合もある
複数の手法を組み合わせる：1つの手法に依存せず、複数の手法を組み合わせて、より堅牢なシステムを構築する
実用的な性能目標を設定する：完璧を求めるのではなく、タスクに応じた最適な手法を選択し、実用的な性能目標を設定する

この研究は、AI検索システムの設計者や開発者にとって、非常に価値のある知見を提供してくれました。限界を理解し、適切な期待を持つことで、より良い検索システムを構築できるでしょう。

参考資料

研究論文

著者：Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
所属：Google、ジョンズ・ホプキンス大学
タイトル：「Retrieval Faces Hard Limits」（仮訳：検索は困難な限界に直面する）

AI検索の「完璧な夢」は終わった：埋め込みモデルが絶対に見つけられない文書がある理由

はじめに：完璧な検索システムは存在しない？

目次

1. 検索システムの2つの顔：キーワード vs 埋め込み

1-1. リトリーバーという名の「文書探偵」

1-2. 伝統的な方法：キーワード検索の世界

1-3. 現代の方法：埋め込み検索の世界

1-4. 埋め込みモデルはどうやって「学習」するのか？

1-5. 単一埋め込み vs 複数埋め込み：2つの戦略

2. 数学が証明した「不可能」：なぜ埋め込みモデルには限界があるのか

2-1. 理想と現実の残酷なギャップ

2-2. 具体例で理解する：埋め込み空間の「距離の壁」

2-3. 埋め込みサイズを大きくすれば解決する？

3. 実験が明らかにした衝撃の事実：埋め込みサイズを10倍にしても限界は存在する

3-1. 2つの実験で検証された「限界」

実験1：理想的な条件下での限界測定

実験2：実際のリトリーバーでの検証

3-2. 実験1の結果：3乗の関係という衝撃の発見

3乗の関係：埋め込みサイズを2倍にしても、検索可能な文書数は8倍にしかならない

具体的な数値：現実的な限界

3-3. 実験2の結果：実際のシステムでも限界が現れた

性能比較：キーワード検索が圧勝

なぜ単一埋め込みリトリーバーが苦戦したのか？

4. 実用上は大丈夫？それとも問題？限界との向き合い方

4-1. この限界は「問題」なのか？実用的な視点から考える

実用上は問題になりにくい理由

限界が問題になるケース

4-2. 解決策と代替アプローチ：限界を超える4つの方法（とその制約）

1. 複数埋め込みの活用：ColBERTのアプローチ

2. エージェント型検索（Agentic Retrieval）：複数回の検索でカバー

3. ハイブリッドアプローチ：最良の方法を組み合わせる

4. 埋め込みサイズの最適化：タスクに応じた選択

4-3. エンジニアへの示唆：実践的なアドバイス

1. 現実的な期待を持つ

2. 評価指標の重要性

3. 複数の手法を組み合わせる

5. おわりに：完璧を求めず、適切な期待を持つ時代

5-1. 研究がもたらした重要な発見

5-2. 実用上のメッセージと技術者への示唆

参考資料

研究論文

関連技術