RAG(Retrieval-Augmented Generation)が広く使われるようになったことで、埋め込み(embedding)は検索、要約、ナレッジベース構築、レコメンドなど、さまざまなAIアプリケーションの基盤技術となっている。
本記事では、Azure OpenAI が提供する埋め込みモデルを技術者向けに詳しく解説し、その後、Azure以外で利用できる一般的な埋め込み生成手法も包括的に整理する。
埋め込みモデルを正しく選定し、目的に応じて最適な技術スタックを設計するための技術ガイドとして活用できる内容となっている。
Part 1: Azure OpenAI の埋め込みモデルの詳細解説
1. Azure OpenAI で利用できる埋め込みモデル一覧
Azure OpenAI が提供する代表的な embedding モデルは以下の三つである。
| モデル名 | 次元数 | 特徴 |
|---|---|---|
| text-embedding-ada-002 | 1536 | 旧世代。実績豊富だが精度は第3世代より低い |
| text-embedding-3-small | 最大1536(可変) | 第3世代の軽量モデル。コスト効率がよい |
| text-embedding-3-large | 最大3072(可変) | 多言語・高精度。RAG向けの最上位モデル |
これらは Azure OpenAI Service と Azure AI Foundry の両方で利用可能で、入力上限は基本的に 8192 トークンとされている。
2. ベンチマーク比較(精度差)
公開ベンチマーク(MIRACL / MTEB)では以下のような傾向が確認されている。
| モデル | MIRACL | MTEB |
|---|---|---|
| ada-002 | 約31 | 約61 |
| text-embedding-3-small | 約44 | 約62 |
| text-embedding-3-large | 約55 | 約65 |
第3世代モデルの改善幅が大きく、特に text-embedding-3-large は多言語領域で非常に優秀である。
3. Azure Embedding の特徴とメリット
3.1 多言語性能が高い
日本語・英語・中国語など複数言語の混在したデータでも高い検索性能を維持する。
3.2 次元数を調整できる
dimensions パラメータによって 3072 → 1024 など、出力ベクトルの次元数を削減可能。
ベクトルDBの容量削減やスループット向上に役立つ。
3.3 セキュリティとガバナンスが強力
Azure AD、Private Endpoint、VNet 統合など、企業環境に最適化されている。
3.4 安定したSLAと高スループット
クラウド基盤の信頼性を前提に、安定したレイテンシ・スループットが確保される。
4. 注意点と限界
4.1 モデルを変更すると互換性がない
ada-002 と 3 系列のベクトルは互換性がないため、モデル変更時には全データのベクトル再生成が必要。
4.2 コストが高い
OSSのローカルモデルと比べるとコストが高いため、大量データに対してはコスト最適化設計が必須。
4.3 チャンク設計の影響が大きい
特に日本語の長文の場合、チャンクサイズ(300〜800)と重複(overlap)の設計次第で精度が大きく変動する。
5. RAGにおけるモデル選定基準
精度最優先
text-embedding-3-large
大規模ナレッジ、多言語環境、専門領域の検索で最適。
コスト重視
text-embedding-3-small
性能と価格のバランスが良い。
互換性維持が必要
ada-002
既存システムを維持する場合にのみ適切。
Part 1 のまとめ
Azure OpenAI の埋め込みモデルは精度・多言語対応・セキュリティの面で非常に優秀であり、企業利用においては最有力候補である。
特に text-embedding-3-large は多くの技術者が RAG システムで最初に検討すべき基準モデルとなる。
一方で、コストやベクトル再生成問題、チャンク設計など運用上の注意点もあるため、設計段階での検討は必須である。
Part 2: Azure 以外の一般的な埋め込み生成手法
Azure の embedding は優秀だが、用途や環境によっては他の選択肢が合理的な場合も多い。
ここでは実務でよく利用される代表的な embedding 手法を体系的に整理する。
1. OSSモデルを使うローカル埋め込み(BGEなど)
BGE(BAAI)
現在もっとも使用されている OSS embedding 系。
種類も豊富で性能が高い。
- bge-small(軽量)
- bge-base(バランス)
- bge-large(高精度)
- bge-reranker(再ランキング特化)
高性能なうえに無償で利用可能であり、RAG構築では Azure embedding の代替として最有力。
2. LLM本体が提供する embedding(Ollama など)
Ollama では embedding 対応モデル(例:bge-m3)をローカルGPU/CPU上で実行できる。
特徴:
- データを外部に出さない
- コストゼロ
- モデル比較が容易
企業内文書検索(完全ローカルRAG)で強みを発揮する。
3. OpenAI API(本家)
Azureとほぼ同等のラインナップだが、
- 新モデルの提供タイミングが早い
- 価格がやや安い
という利点がある。
個人開発やスタートアップでは本家を選ぶケースも多い。
4. AWS Bedrock の埋め込み(Titan Embeddings)
AWS上で閉域実行でき、セキュアな構成に向いている。
- Titan Embeddings v1 / v2
- 多言語対応
- Amazon Search と相性がよい
AWSベースのシステムでは最有力。
5. Google Vertex AI の embedding
textembedding-gecko が有名。
Google 検索技術の知見を活かし、検索品質に強みがある。
6. Sentence Transformers(HuggingFace)
学術から商用まで幅広く使われる OSS embedding エコシステム。
代表例:
- all-MiniLM-L6-v2
- mpnet-base-v2
- gte-large
- distiluse-base
GPUがあれば本番運用も可能。
モデル種類が最も多いという大きな利点がある。
7. 古典的手法(Word2Vec / FastText / Doc2Vec)
近年はLLMベースに置き換えられているが、
- 軽量
- 低メモリ
- ローカル環境
- 低コスト
といったメリットから、レガシー環境や組み込みでは今も使用される。
8. ベクトルDBが提供する組込み embedding
Pinecone、Weaviate、Qdrant などは embedding と再ランキングを強く統合。
メリット:
- ベクトルDBとembeddingの一貫した性能最適化
- チューニング不要
- インデックス再構築が容易
一方で、自由度や選択肢が制限される。
Part 2 のまとめ
Azure embedding は企業向けRAGに強いが、
OSSモデル(特に BGE 系)、Ollama のローカルモデル、OpenAI本家、AWS/GCP、Sentence Transformers など、多様な選択肢が存在する。
用途に応じて、次のように使い分けるとよい。
- セキュアな企業環境 → Azure text-embedding-3-large
- コストを抑えたい → BGE-large
- 完全ローカルで閉じたい → Ollama embedding
- AWS/GCP環境を前提にする → Titan / Gecko
- 多種多様なモデルから選びたい → Sentence Transformers
まとめ
本記事では Azure OpenAI の embedding モデルを詳細に分析し、さらに Azure以外の一般的な embedding 手法も体系的に整理した。
埋め込みは RAG の中心技術であり、その選定によって検索精度、ユーザー体験、インフラコストが大きく変化する。
Azure embedding は総合的な性能と運用性が高く、特に text-embedding-3-large は企業RAGの最適解となりうる。一方、OSSやローカルモデルも進化しており、環境や目的によってはそれらが最適な選択肢となる。
最終的には、
- 精度要求
- コスト
- セキュリティ
- インフラ(クラウド or ローカル)
- チームの運用体制
これらの要素を踏まえて embedding 戦略を設計することが重要である。
必要であれば、この記事に続けて
「Azure + ローカル埋め込みのハイブリッド構成例」
「各モデルの日本語ベンチマーク比較」
「大規模RAGシステム設計(100万件〜)」
等も作成できる。