最前線のLLM選び、何が正解?
「結局どのモデルを選べばいいの?」――2025年現在、大規模言語モデル(LLM)は百花繚乱。性能・価格・ユースケースの差が広がり、プロダクト選定やPoCで頭を抱えるエンジニア/PMは少なくありません。本記事では、OpenAIが2025年4月に公開した最新モデル “o3” と “o4‑mini” を軸に、Anthropic、Google、Meta、Mistralの 競合LLM を“ガチ比較”。開発者視点で使いどころ・コスト・技術的特徴を整理し、“迷わないモデル選定”を後押しします。
前提知識・背景
1. LLMとは?
大規模言語モデル(Large Language Model)は、膨大なテキスト(数兆トークン)と自己注意機構で学習した推論エンジン。2023年のGPT‑4を皮切りに、推論特化・マルチモーダル・長文処理など“特化型LLM”が続々登場しています。
2. 用語ざっくり辞書
用語 | 意味 |
---|---|
トークン | モデル内部で扱うサブワード単位。英語1単語≈1.3 token、日本語1文字≈1 token |
コンテキスト長 | 一度に保持できる入力長。長いほど“長文を一気読み”できる |
パラメータ数 | ニューラルネットの重み総数。多いほど表現力が高いがメモリ・計算コスト増 |
推論チェーン (CoT) | モデルが回答までに踏む思考ステップ。o3は内部で隠れCoTを実行する |
歴史的には2018年BERT⇒2020年GPT‑3⇒2023年GPT‑4で“汎用チャット”が実用化、2024年からは推論ブーストとマルチモーダルの覇権争いにシフトしています。
本論:o3 / o4‑mini を中心に最新LLMを深掘り
3‑1. OpenAI o3 ─ “考える”を実装したハイエンドモデル
- リリース:2025‑04‑16
- 特徴:内部で“非公開CoT”を走らせ、数学・科学・コーディングで圧倒的。Codeforces Elo 2727は人間TOP0.2%級。
- マルチモーダル:テキスト中心(画像入力はo4系列でサポート)。
- API価格:Input $10/M token、Output $40/M token(Batch割引‑50%)
from openai import OpenAI
client = OpenAI()
resp = client.chat.completions.create(
model="o3", # <-- o3を指定
messages=[
{"role": "user", "content": "Explain quantum entanglement in simple terms."}
]
)
print(resp.choices[0].message.content)
Tips: 計算量が重いので、
max_tokens
を絞る/stream=True
で部分ストリーム取得するとレイテンシを抑えられます。
3‑2. OpenAI o4‑mini ─ 軽さ・速さ・画像推論の三拍子
- リリース:2025‑04‑16(o3と同時)
- 特徴:画像+テキスト=統合推論。“手書きホワイトボード→回答”が得意。無料ユーザーもアクセス可。
-
高速版:
o4-mini-high
はPlus/Pro限定。約1.7×レスポンス高速。 - API価格:Input $1.10/M token、Output $4.40/M token (GPT‑4o mini比で依然高性能)
resp = client.chat.completions.create(
model="o4-mini", # o4‑mini
messages=[
{"role": "user", "content": "<image_url> この回路図の動作原理を解説して"}
]
)
3‑3. 競合モデルを一気見
モデル | パラメータ | 代表ベンチマーク | 長文処理 | マルチモーダル | 参考価格/ライセンス |
---|---|---|---|---|---|
Claude 3.7 Sonnet | 非公開(推定≈600B) | MMLU 88.5、SWE‑bench 73 | 200k token | 画像入力OK | $3 in /$15 out per M token (API) |
Gemini 2.5 Pro | 非公開(推定>1T) | Reasoning FlashベンチSOTA、1M token長文 (2M計画) | 1M token | 画像・動画・コード | $1.25 in /$10 out per M token (≤200K)、長文$2.5 in /$15 out |
LLaMA 3.3 70B | 70B | MMLU 88、HumanEval 80 | 128k (一部拡張) | テキスト専用 | 無償ウェイト(商用OK※一部制限) |
Mistral Large 2 | 123B | MMLU 90、Toolformer SOTA | 128k | Pixtral版で画像 | 研究ライセンス/商用は要契約 |
Mistral Small 3 (24B) | 24B | MMLU 81(7B級最上位) | 128k | 画像(3.1) | Apache 2.0 無償 |
ベンチマークは公称値または公開レポートを引用。詳細は末尾リソースを参照。
実践的な応用例
4‑1. SaaS向けRAGシステムに o4‑mini を組み込む
- Elasticsearch/Pinecone に社内PDFを埋め込み保存。
- Queryをo4‑miniに渡し、画像添付で表や図を理解させる。
- リンク先文書をハイライト生成 → フロントへ返却。
4‑2. ローカルGPUで動く Mistral Small 3
# 24GB VRAMで起動例 (LLama.cpp)
python server.py --model mistral-small-3-instruct.Q4_K_M.gguf --context 16384
高速で月額コストゼロ。社内PaaSに組み込みSLA向上を狙えます。
ベストプラクティス & 最適化
-
トークン節約:System指示に定型プロンプトIDを使い
<|content|> ...
で共通化。o3はBatch APIで‑50%。 - マルチモーダルの設計:o4‑miniは画像を640×640以下JPEGにリサイズすると推論が安定。
- 安全性:社外向けチャットではClaude 3.7のConstitutionalモードをプロキシ利用し、フィルタ層を二段構えに。
- スケール:LLaMA 3 70BをK8sで水平分割する場合、vLLM + FlashAttention‑2で最大2.3×スループット。
トラブルシューティング / FAQ
症状 | 原因と対策 |
---|---|
RateLimitError: 429 |
PlusでもRPM上限あり。分散Queueで指数バックオフ。 |
"context length exceeded" | クエリ+ヒット文書+画像トークン総量を算出し、tokenizer で事前カット。 |
画像推論が的外れ | 画像のコントラスト不足→PIL.ImageEnhance でコントラスト1.5を推奨。 |
LLaMA 3 がGPUメモリ不足 |
gguf --quantize q4_k_m で量子化 or swap -offloadingを有効化。 |
まとめ & 次に取るべきアクション
- コスト無視で最高性能→ o3。
- 低コスト+画像推論→ o4‑mini。
- 長文&安全→ Claude 3.7。
- 自社GPU活用→ LLaMA 3 / Mistral。
まずはPoCで複数モデルを試し、実タスクで推論品質×コストを計測しましょう。APIならトークンLogging、ローカルならPrometheusでGPU/latency計測をセットにすると判断が速くなります。
将来的には、OpenAIが示す“熟慮型エージェント”路線と、Meta/Mistralの“オープン重み”路線が収束する可能性も。ハイブリッド・エージェント(クラウドo3 + ローカルLLaMAでフェデレーション推論)が次の潮流になるかもしれません。