はじめに
こんにちは、ひよこです。
最近 OSS 系 LLM の話をしていると「Llama、ちょっと元気なくない?」という空気を感じることが増えました。
私自身も Llama 2〜3 あたりの熱狂を知っていると、Llama 4 の話題が流れてきても昔ほどテンションが上がらない感覚があります。
一方で Qwen 系列 (Qwen 2 / 2.5 / 3) が一気に存在感を増し、「OSS の本命は Qwen では?」という声もよく見かけます(Qwen)。
この記事では、Llama のここ 2 年の動きを追いつつ、Llama 4 の現状と Qwen 勢との勢力争いについてマイルドに書いてみます。
🐣 Llama 4 Behemoth というネーミングはゲーム厨っぽくて好きなのですが
Llama 系列のここまでの流れ
まずはバージョンを時系列で振り返ります(Wikipedia)。
-
Llama 1 (2023)
- 研究者向け。OSS LLM ブームの火付け役。
-
Llama 2 (2023)
- 商用利用可能な「オープンウェイト」として公開。企業利用への道を開いた。
-
Llama 3 / 3.1 (2024)
- 405B という超巨大モデルを投入。「GPT-4 並かそれ以上」を主張し、英語タスクで高スコアを記録(Ai.Meta)。
-
Llama 3.2 (2024 秋)
- 1B/3B の小型モデルと Vision モデルを追加。エッジ・マルチモーダルに対応(Ai.Meta)。
-
Llama 3.3 70B (2024 年末〜 2025 春)
- 70B で 405B に迫る性能を持つ「コスパ番長」(ollama.com)。
-
Llama 4 Scout / Maverick (2025 春)
- MoE (Mixture of Experts) とマルチモーダルを採用。
- Scout は 10M トークンという極端な長コンテキストを持つ(Ai.Meta)。
表向きは順調ですが、Llama 4 以降で少し風向きが変わってきます。
Llama 3.x までは強かった
まず「Llama 3.x までは間違いなく強かった」という話をしておきます。
Llama 3.1: オープンウェイトのピーク
Llama 3.1 は 405B を含むラインナップで、「最も強力なオープン基盤モデル」として君臨しました。
- 英語タスクでは GPT-4 クラスと拮抗。
- 128k トークン対応で実用性も確保。
- 「とりあえずこれを使えば間違いない」という代表格に。
Llama 3.2 / 3.3: 実務への最適化
その後の 3.2 / 3.3 は SOTA 更新というより、ユースケースの拡大です。
- 3.2: 画像入力対応と、スマホ等で動く軽量モデルの拡充。
- 3.3: 70B サイズで最高性能を目指し、クラウドでの扱いやすさを重視(Google Cloud)。
ここまでは「Llama 強いな〜」というムードが漂っていました。
Llama 4 で何が起きたのか
2025 年 4 月発表の Llama 4 Scout / Maverick は、野心的なモデルでした。
スペックは攻めている
- MoE 採用: アクティブパラメータを抑えつつ総パラメータを巨大化。
- マルチモーダル: テキスト・画像に加え、音声・動画対応もアナウンス(Reuters)。
- 超長コンテキスト: Scout は最大 10M トークンに対応。
盛り上がりに欠けた理由
しかし、いくつかの要因でトーンダウンしてしまいました。
- 性能への評価: 数学やコーディングで、DeepSeek や Claude 系に見劣りすると報じられた(rootly.com)。
- ベンチマーク炎上: 実公開版と異なる調整版を提出していた疑惑で Meta が釈明に追われた(The Verge)。
- Behemoth 中止報道: 巨大版の開発中止が報じられ、不安視された(Analytics India Magazine)。
結果として「圧倒的王者」というよりは「技術的には面白いが、PR で損をした」印象になってしまいました。
一方の Qwen 系列の台頭
同時期、Alibaba の Qwen 系列 (Qwen 2.5 / 3) が猛追しています。
性能とエコシステム
Qwen 2.5 は大規模データ再学習により、推論・数学 (Math)・コーディングの全方位で高スコアを記録。「Qwen2.5-72B がベスト OSS」と評価するユーザーも多いです(Reddit)。
さらに,マルチモーダル(VL)領域での進化も見逃せません。
Llama も Llama 3.2 でようやく公式に Vision モデル (11B/90B) を投入しましたが、Qwen は以前から Qwen-VL で高い評価を得ています。
特に最近登場した Qwen-Image-Edit は,画像内のテキスト編集やオブジェクト操作において極めて高い精度を誇り、単なる「認識」を超えて「編集」の領域まで踏み込んでいます。
「目(認識)」だけでなく「手(編集)」も持ち始めた Qwen のエコシステムは、現時点で Llama より一歩先んじている印象です。
ライセンスと多言語対応
開発者視点ではここが決定打になりがちです(LLM Stats)。
- ライセンス: Qwen は Apache 2.0 で商用利用が容易。Llama は独自の Community License で制限あり。
- 多言語: Qwen は日本語含む多言語に強い一方、Llama は依然として英語中心。
特にアジア圏では「Qwen の方が扱いやすい」という評価が定着しつつあります。
「Llama 弱くなった?」と感じる理由
Llama 自体の性能は向上していますが、相対的な印象の問題です。
- 期待値のインフレ: 「次は閉じた GPT を抜き去るはず」という過度な期待に対し、Llama 4 は「普通に強い」止まりだった。
- ライバルの急成長: Qwen、DeepSeek、Gemma などが台頭し、Llama 一強時代が終わった。
- 商用利用のハードル: 法務的に Apache 2.0 の Qwen が選ばれやすい(株式会社ハイレゾ)。
- PR の失敗: ベンチマーク問題などでブランドイメージを少し落とした。
今後の使い分け指針 (2025年末版)
現状の私の使い分けは以下の通りです。
-
汎用チャット・社内利用
- 英語メインなら Llama 3.1/3.3 70B。
- 日本語・多言語なら Qwen2.5-32B/72B。
-
数学・コーディング
- 数学は Qwen2.5-Math が強力(arXiv)。
- コーディングは DeepSeek Coder など専用モデルを検討。
-
エッジ・軽量環境
- Llama 3.2 (1B/3B) が実績豊富で安定。
-
超長コンテキスト
- 10M トークンが必要なら Llama 4 Scout を実験的に採用。
おわりに
まとめると、現在の Llama は「一強ではなくなったが、依然としてトップグループ」という立ち位置です。
- Llama 4 は尖った仕様だが、万能感は薄れた。
- Qwen は性能・ライセンス・多言語のバランスが良く、実務で選びやすい。
「Llama 元気ない?」の正体は、OSS 界隈全体のレベルが上がり、選択肢が増えたことの裏返しとも言えます。個人的には、どちらも触りつつ案件に合わせてドライに使い分けるのが健全だと感じています。
🐣 個人的には業務でよく Llama にお世話になっていたので頑張ってほしいところです