背景
クラウド上でLLMを利用する場合、各クラウドプロバイダで一強がおおむね決まっており選択肢が限られていたため、モデル選定にはそこまで困らなかったように思います。
(AzureであればOpenAI GPTシリーズ、Amazon BedrockであればClaudeシリーズ、GoogleであればGeminiシリーズ、のように)
一方で、AmazonがNovaシリーズを公開する1、AzureでDeepSeek R1が利用可能になる2など、これまで3強だったLLMベンダ以外のモデルも着目されつつあるように思います。
そこで今回は、クラウド上で使用するLLM/Embeddingモデルを机上調査にて選定する際の、主要な選定観点を整理してみたいと思います。
前提条件
- RAGチャットボットのような、ストリーミングでLLM/Embeddingモデルを利用するユースケースを対象とします
- 選定観点はPoCの前段階の使用モデルの候補選定に利用するものとします。実際に使用できるかはPoCなどの後工程で確認するものとします
- モデル利用はクラウドプロバイダのAIサービスで使用するケースで、オープンウェイトなモデルを自前で動かすケースは考えないものとします
- 課金オプションは従量課金とし、Azure OpenAI ServiceのPTU3やマネージドコンピューティングデプロイ4のような課金体系については考慮外とします
- LLMのうち、Reasoningモデル特有の観点(Reasoning過程のストリーミング出力ができるか、など)は除外します
- 画像・音楽・動画生成モデルは対象外とします
観点項目
大項目 | 小項目(LLM) | 小項目(Embedding) |
---|---|---|
モデル | モデル名, バージョン, ベンダ | 同左 |
価格 | 入力トークン価格, 出力トークン価格, (価格リージョン) | 入力トークン価格, (価格リージョン) |
提供リージョン | 日本リージョンの有無など | 同左 |
コンテキスト長 | 入力コンテキスト長, 出力コンテキスト長 | 入力コンテキスト長 |
対応言語 | 日本語サポートの有無など | 同左 |
応答精度 | ベンチマーク精度 | 同左 |
応答速度 | ベンチマーク速度 | 同左 |
マルチモーダル対応 | 対応モーダルの種類 | 同左 |
ファインチューニング対応 | 対応可否、学習対応モーダル、価格 | 同左 |
APフレームワーク/ライブラリ/ミドルウェアのサポート | 対象製品の対応モデル | 同左 |
モデル
サービス上で提供されているモデルは各クラウドベンダのページから確認できます。
AzureではOpenAI以外のサードパーティーのモデルはAI Foundlyから提供されます。
サードパーティーのモデルのうち、Azure AIによるキュレーションされたモデルはMS Learnにドキュメントがあります。
モデルのバージョン
モデルは似た名前のものも多いですが、おおまかに世代のバージョン、サイズのバージョン、リリース時期のバージョンを意識しながら確認するとよいかと思います。
世代のバージョン例
- OpenAI GPTシリーズ: GPT-3.5 → GPT-4 → GPT-4o
- Anthropic Claudeシリーズ: Claude 3 → Claude 3.5
一般に世代が新しい方が同等の価格で応答能力が高い傾向があります。
リリース時期のバージョン例
同世代のモデルでもリリース時期が異なる別バージョンがある場合があります。
- OpenAI GPTシリーズ: GPT-4o (2024-08-06) → GPT-4o (2024-11-20)
- Anthropic Claudeシリーズ: Claude 3.5 Sonnet (2024-06-20) → Claude 3.5 Sonnet (2024-10-22)
サイズのバージョン例
- OpenAI GPTシリーズ: GPT-4o > GPT-4o-mini
- Anthropic Claudeシリーズ: Claude 3 Opus > Claude 3 Sonnet > Claude 3 Haiku
- Meta Llamaシリーズ: Llama 3.1 405B > Llama 3.1 70B > Llama 3.1 8B
一般にモデルのサイズが大きい方が応答能力が高い一方、価格が高く応答速度が遅い傾向があります。
価格
LLMは入力トークン/出力トークンそれぞれで課金されます。
入力/出力トークン価格は、各クラウドプロバイダが公開している価格表や料金計算ツールから確認できます。リージョンによって若干価格が異なるため、参照した価格のリージョンも気にしておくとよいかもしれません。
Embeddingモデルは特定次元のベクトルを出力するため、入力トークン価格のみで出力トークン価格はありません。
Azure AI Foundlyのキュレーションモデルの価格はモデルカタログから確認できます。
提供リージョン
モデルによって提供されるリージョンが異なる場合があります。デプロイ先が日本リージョンでなければならないなど要件がある場合、確認したほうがよいでしょう。
各クラウドプロバイダがドキュメント上でモデルの対応リージョンを公開しています。
コンテキスト長
LLMのコンテキスト長には入力コンテキスト長と出力コンテキスト長があります。
入力コンテキスト長は、チャットアプリで応答ターンの多い会話を扱えるようにしたい場合や、RAGで複数ドキュメントを参照させたい場合など、入力が長くなることが予見される場合に気にしておくとよいかもしれません。
出力コンテキスト長は、長文を出力させたい場合などで確認しておくとよいかもしれません。
Embeddingモデルは入力コンテキスト長のみです。
Embeddingモデルの入力コンテキスト長は、RAGの場合IndexするドキュメントのチャンクサイズとRetrievalする際のクエリの最大長に影響します。
対応言語
日本向けのアプリケーションを構築する場合、日本語を取り扱うことがほとんどかと思いますので、日本語対応しているかどうか確認しておくとよいでしょう。
応答能力
モデルの応答能力を簡単に把握したい場合、有志が公開しているベンチマーク/リーダーボードが参考になるかと思います。
LLM リーダーボード
Chatbot Arena
有名なLLMリーダーボードです。人間の投票データを基にEloレーティングでLLMをランク付けしています。
Chatbot Arenaについては以下の解説などが参考になります。
Artificial Analysis
LLMの各種ベンチマークをまとめているサイトです。応答能力の面ではMMLUやHumanEvalなど、有名どころのベンチマーク結果が載せられています。
Nejumi 3
既存の日本語ベンチマークを統合して評価しているリーダーボードです。汎用的言語性能、安全性能(アライメント)という大きく分けて2つの観点で、ベンチマークをまとめています。
Embedding リーダーボード
MTEB (Multilingual)
Embeddingモデルのよく知られたベンチマークとしてはMTEBがあります。MTEBの論文発表当時は英語のタスクが主で多言語対応は一部のみでしたが5、現在はMMTEBとして多言語拡張された6ようです。
JMTEB
日本語に特化したMTEB派生のベンチマークとしてはJMTEBがあります。リーダーボードは以下に公開されています。
なおMTEB、JMTEBについては以下の資料が参考になります。
その他
その他ベンチマークについては以下のページにまとめられています。
応答速度
LLMの応答速度
Artificial Analysis
Artificial Analysis では応答速度についてもベンチマークが取られています。
応答速度の測定方法・条件は以下のページにまとめられています。
Embeddingモデルの応答速度
Embeddingモデルの応答速度ついてまとめている有名なベンチマーク/リーダーボードは見当たりませんでした。
応答速度について知りたい場合は個別に検証する必要がありそうです。
マルチモーダル対応
画像などの入力が要件としてあるならば確認しておくとよいでしょう。
ファインチューニング対応
ファインチューニングがすでに視野に入っているならば確認しておいてもよいかもしれません。
ただしアプリケーションの精度向上の取り組みとしては、コストの観点からプロンプトチューニング、RAGなどが先でファインチューニングはその後の選択肢となるため、初期選定からそこまで意識する必要はないかと思います。
APフレームワーク/ライブラリ/ミドルウェアのサポート
使用するAPフレームワーク/ライブラリ/ミドルウェアがおおむね決まっている場合、それらの製品が候補のLLM/Embeddingモデルに対応しているか確認しておくとよいでしょう。
たとえばLangChainでは以下のページに対応しているLLMが列挙されています。また主要なプロバイダについてはTool use、Structured outputに対応しているかについても記載されています。
おわりに
クラウド上で使用するLLMを選定する際の主要な選定観点を書き出してみました。
一般的な観点をおおむね出してみたつもりですが、プロジェクトごとの要件等に応じて観点の追加や削除が必要かと思います。
また応答能力や応答速度はあくまで参考値であるため、本格利用する前に実際のタスク、デプロイ構成で精度や速度を検証する必要があるかと思います。
-
Amazon, Amazon Nova: Meet our new foundation models in Amazon Bedrock, 2024, https://www.aboutamazon.com/news/aws/amazon-nova-artificial-intelligence-bedrock-aws ↩
-
Sharma, DeepSeek R1 is now available on Azure AI Foundry and GitHub | Microsoft Azure Blog, 2025, https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/ ↩
-
Satake,【PTU徹底解説】Azure OpenAIを高パフォーマンス&安定稼働で使う方法知ってる?【割引有り】, 2024, https://zenn.dev/microsoft/articles/azure_perfectly_understand_ptu ↩
-
Microsoft, Azure AI Foundry ポータルにおけるデプロイ モデル - Azure AI Foundry, https://learn.microsoft.com/ja-jp/azure/ai-studio/concepts/deployments-overview ↩
-
Li et. al., 日本語埋め込みモデル評価ベンチマークの構築, 2024, https://jedworkshop.github.io/JLR2024/materials/b-3.pdf ↩
-
Enevoldsen et. al., MMTEB: Massive Multilingual Text Embedding Benchmark, 2025, https://openreview.net/forum?id=zl3pfz4VCV ↩