The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation(https://ai.meta.com/blog/llama-4-multimodal-intelligence/) より
目次
- はじめに:Llama 4とは
- 第1部:Llama 4の主要な技術的特徴
- 第2部:Llama 4モデルバリエーション
- 第3部:訓練手法と革新的アーキテクチャ
- 第4部:パフォーマンスとベンチマーク
- 第5部:アクセスと可用性
- 第6部:議論とコントロバシー
- 第7部:将来の展望
- まとめと総合理解度チェック
- 参考リソース
はじめに:Llama 4とは
2025年4月5日、Metaは最新の大規模言語モデル(LLM)シリーズ、「Llama 4」を発表しました。Llama 4は、単なるテキスト処理モデルではなく、「ネイティブ多モダリティ」として設計された次世代AIモデルです。これは、テキストと画像を両方理解し処理できることを意味します。🚀
Mark Zuckerbergは発表の中で、「私たちの目標は、世界をリードするAIを構築し、オープンソース化し、すべての人が利用できるようにすることです」と述べています。
Llama 4は、以下の3つの主要バリエーションで構成されています:
- Llama 4 Scout: 小規模ながらも強力な多モダリティモデル
- Llama 4 Maverick: 中規模の主力多モダリティモデル
- Llama 4 Behemoth: 超大規模な「教師」モデル(まだ訓練中)
さらに、近い将来「Llama 4 Reasoning」と呼ばれる推論特化型モデルもリリース予定です。
この記事では、これらの新しいモデルの技術的側面、能力、アクセス方法、そして現在の議論について詳しく解説します。
第1部:Llama 4の主要な技術的特徴
Llama 4の革新的な特徴を理解するために、いくつかの重要な技術的概念を紹介します。
Mixture of Experts (MoE) アーキテクチャ
Llama 4は、Metaのモデルとしては初めて「Mixture of Experts(MoE)」アーキテクチャを採用しています。これは、モデルが多数の「専門家」ネットワーク(エキスパート)を持ち、各入力トークンに対して、これらの専門家の一部だけが活性化される設計です。
MoEのメリット
- 計算効率の向上: すべてのパラメータを活性化する必要がないため、推論が高速
- リソース使用の最適化: 各トークンに最適な「専門家」のみが活性化
- パラメータ効率: より少ないアクティブパラメータで高い性能を実現
例として、Llama 4 Maverickモデルは、全体で約4000億パラメータを持っていますが、任意の時点で活性化されるのは約170億パラメータのみです。これは、従来の「密な(dense)」トランスフォーマーモデルと比較して、はるかに効率的な推論を可能にします。
基礎知識: トークンとは?
テキストや画像データは、モデルが処理できるように「トークン」と呼ばれる小さな単位に分割されます。英語では、1トークンは約4文字または3/4単語に相当します。日本語の場合は、1文字が約1.5〜2トークンに相当することが多いです。
ネイティブな多モダリティ機能
Llama 4は「ネイティブ多モダリティ」モデルとして設計されています。これは、テキストと画像(および画像シーケンス)の両方を同時に理解し処理できることを意味します。
主な特徴
- 早期融合アーキテクチャ: テキストトークンと視覚トークンを単一のモデルバックボーンに統合
- 改良された視覚エンコーダ: MetaCLIPをベースに、LLMと連携するよう最適化
- マルチイメージ処理: 最大48枚の画像を同時に処理可能
これにより、Llama 4は以下のようなタスクを実行できます:
- 画像内の要素に関する質問への回答 📷❓
- 複数の画像の関係性の分析 🖼️🔄
- グラフやチャートの解釈と説明 📊📈
- 画像内の特定要素の位置特定(グラウンディング)🎯
実用例: 医療現場では、X線画像を分析し、異常を検出して詳細なレポートを生成することができます。また、小売業では、商品の写真から詳細な説明や特徴を自動生成することも可能です。
超長コンテキストウィンドウ
Llama 4 Scoutの最も注目すべき特徴の一つは、業界最長の1000万トークンのコンテキストウィンドウです。
長いコンテキストウィンドウの意味
- 数百ページに及ぶドキュメントの処理
- 大規模なコードベースの解析
- 長い会話履歴の維持
- 複数文書の要約
スケール感: 1000万トークンとは?
1000万トークンは、約750万単語、または約30,000ページ分のテキストに相当します。これは、『ハリーポッター』シリーズ全7巻を合わせた長さの約6倍です。
実用例: 法律事務所では、何千ページもの法的文書や判例を一度に分析できます。また、ソフトウェア開発では、巨大なコードリポジトリ全体を解析して、バグの特定や最適化提案を行うことができます。
第2部:Llama 4モデルバリエーション
Llama 4 Scout
Llama 4 Scoutは、シリーズの中で最も小規模なモデルですが、その性能は注目に値します。
主な仕様
- アクティブパラメータ: 170億
- エキスパート数: 16
- 総パラメータ: 1090億
- コンテキスト長: 1000万トークン
- ハードウェア要件: 単一NVIDIA H100 GPU(Int4量子化で)
主な用途
- 単一GPUでの高効率推論
- 超長文書の処理と要約
- コードベース全体の理解と分析
- 基本的な画像理解タスク
Scoutは、同クラスの他のモデル(Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1など)よりも優れたパフォーマンスを提供します。また、以前のすべてのLlamaモデルよりも高性能です。
Llama 4 Maverick
Llama 4 Maverickは、Llama 4シリーズの「主力」モデルとして位置づけられています。
主な仕様
- アクティブパラメータ: 170億
- エキスパート数: 128
- 総パラメータ: 4000億
- コンテキスト長: 100万トークン
- ハードウェア要件: 単一NVIDIA H100 DGXホスト
主な用途
- 高度な多モダリティタスク
- 精密な画像理解
- クリエイティブライティング
- コーディングと推論タスク
Maverickは、GPT-4oやGemini 2.0 Flashを上回り、DeepSeek v3と同等のパフォーマンスを半分以下のアクティブパラメータで実現しています。LMArenaでは1417のELOスコアを達成しています。
実用例: 企業のカスタマーサポートでは、ユーザーが送信したスクリーンショットやエラー画面を理解し、適切な解決策を提案できます。また、Eコマースでは、複数の商品画像を解析して詳細な比較レポートを生成することも可能です。
Llama 4 Behemoth
Behemothは、まだ訓練中の「教師」モデルですが、すでに驚異的な性能を示しています。
主な仕様
- アクティブパラメータ: 2880億
- エキスパート数: 16
- 総パラメータ: 約2兆
- 特徴: GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを多くのSTEMベンチマークで上回る
Behemothの主な目的は、小規模モデルの「教師」として機能し、知識の蒸留を通じてScoutとMaverickの性能を向上させることです。
教師モデルとは?
大規模な「教師」モデルは、より小規模な「生徒」モデルの訓練を支援します。教師モデルの知識を生徒モデルに「蒸留」することで、比較的小さなモデルでも高い性能を実現できます。これは、人間の教師が複雑な概念を簡略化して生徒に教えるのに似ています。
学習クイズ:Llama 4の基本
-
Llama 4 Scoutのコンテキストウィンドウは何トークンですか?
- 100万トークン
- 200万トークン
- 1000万トークン
- 128万トークン
-
Mixture of Experts (MoE)アーキテクチャの主なメリットは何ですか?(複数選択可)
- 計算効率の向上
- リソース使用の最適化
- トレーニングデータの削減
- パラメータ効率の向上
第3部:訓練手法と革新的アーキテクチャ
事前学習のアプローチ
Llama 4の事前学習には、いくつかの革新的なアプローチが採用されています:
MetaP訓練技術
重要なモデルハイパーパラメータ(層ごとの学習率や初期化スケールなど)を確実に設定するための新しい訓練技術。これらのハイパーパラメータは、バッチサイズ、モデル幅、深さ、訓練トークンなどの異なる値間で良好に転移します。
多言語サポート
200言語での事前訓練を実施。100以上の言語について10億トークン以上のデータを使用。全体として、Llama 3の10倍以上の多言語トークンで訓練されています。
効率的なモデル訓練
FP8精度を使用し、品質を犠牲にすることなく高いモデルFLOPS利用率を確保。Behemothモデルの事前訓練では、32,000個のGPUを使用してGPUあたり390 TFLOPSを達成しました。
訓練データ
事前訓練用の全データミックスは300兆トークン以上で構成され、これはLlama 3の事前訓練ミックスの2倍以上です。多様なテキスト、画像、ビデオデータセットが含まれています。
実用例: この包括的な事前学習により、Llama 4は日本語、中国語、アラビア語など多数の言語で高いパフォーマンスを発揮できます。例えば、多国籍企業は単一のモデルで複数の言語市場向けのコンテンツ生成や翻訳を行うことができます。
ポスト訓練技術
Llama 4モデルのポスト訓練段階では、以下のようなアプローチが採用されました:
カリキュラム戦略
複数の入力モダリティ、推論能力、会話能力のバランスを取るために、慎重に策定されたカリキュラム戦略が採用されました。
軽量教師あり微調整(SFT)
データの50%以上を「簡単」とタグ付けされたものから除外し、残りの「難しい」セットで軽量SFTを実施。これにより、モデルの探索能力が向上しました。
オンライン強化学習(RL)
困難なプロンプトを慎重に選択することで、性能の大幅な向上を達成。連続的なオンラインRL戦略を実装し、モデルの訓練と使用を交互に行いながら、中〜高難度のプロンプトのみを継続的にフィルタリングして保持しました。
軽量直接選好最適化(DPO)
モデルの応答品質に関連するコーナーケースを処理するために軽量DPOを実施。これにより、モデルの知性と会話能力のバランスが取れました。
iRoPEアーキテクチャ
Llama 4 Scoutが1000万トークンという前例のないコンテキスト長をサポートできるのは、新しい「iRoPE」アーキテクチャのおかげです。
iRoPEの特徴
- interleaved(交互)アテンション層:位置埋め込みなしのアテンション層を交互に配置
- Rotary Position Embeddings(回転位置埋め込み):ほとんどの層で使用
- 推論時のアテンション温度スケーリング:長さの一般化を強化
このアーキテクチャにより、事前訓練時の256Kコンテキスト長を大幅に超えて、推論時に1000万トークンまでスケールすることが可能になりました。
なぜ長いコンテキストが難しいのか?
トランスフォーマーモデルにとって、長いテキストの位置情報を保持することは非常に難しい課題です。文書が長くなるほど、前方の単語との関係を理解することが困難になります。iRoPEはこの問題に対処するための革新的なアプローチです。
実用例: この技術により、研究者は数十の科学論文を同時に分析し、異なる研究間の関連性を見つけることができます。また、金融機関では、何年分もの財務報告書を一度に分析して長期的なトレンドを特定することが可能になります。
蒸留技術
Llama 4 ScoutとMaverickは、Behemothからの知識蒸留によって性能が大幅に向上しています。
重要な蒸留技術
- ソフトターゲットとハードターゲットを訓練を通じて動的に重み付けする新しい蒸留損失関数の開発
- 事前訓練中のBehemothからの協同蒸留(codistillation)により、蒸留ターゲットを計算するために必要な計算コストリソースを分散
- 学生訓練に組み込まれた追加の新しいデータについては、Behemothモデルでフォワードパスを実行して蒸留ターゲットを作成
この蒸留プロセスにより、比較的小さなモデルでありながら、Llama 4 ScoutとMaverickは非常に高い性能を示しています。
学習クイズ:Llama 4の訓練技術
-
Llama 4の超長コンテキストを可能にしたアーキテクチャは?
- ROPE
- iRoPE
- MetaP
- SFT
-
Llama 4の訓練データは、Llama 3と比較して何倍の多言語トークンを使用していますか?
- 2倍
- 5倍
- 10倍以上
- 100倍
第4部:パフォーマンスとベンチマーク
他のAIモデルとの比較
Llama 4モデルは、他の主要なAIモデルと比較して優れたパフォーマンスを示しています:
Llama 4 Scout
- 同クラス最高: Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1を上回る
- 前世代を超える: すべての以前のLlamaモデルよりも高性能
Llama 4 Maverick
- GPT-4o & Gemini 2.0 Flash超え: コーディング、推論、多言語、長コンテキスト、画像ベンチマークで上回る
- DeepSeek v3.1と競合: コーディングと推論でより少ないパラメータで同等の性能
- LMArena: 実験的チャットバージョンでELO 1417を達成
Llama 4 Behemoth
- STEM分野での優位性: GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを多くのSTEM分野のベンチマークで上回る
- 最高ベースモデル: 世界最高のベースモデルと位置づけられ、訓練の完了を待たずに優れた性能を示す
特定タスクにおけるパフォーマンス
Llama 4モデルは、様々なタスクで強力なパフォーマンスを示しています:
多モーダリティ理解
- MMLU: Gemini 2.0 Flashを上回る
- Math Vista: Gemini 2.0 Flashを上回る
- Chart QA: グラフやチャートの理解でGemini 2.0 Flashを上回る
- Doc VQA: ドキュメント内の視覚的質問応答でGPT-4oを上回る
コーディングと推論
- Live Codebench: コーディングベンチマークでGPT-4oとDeepSeek V3.1を上回る
- 画像グラウンディング: ユーザープロンプトと関連する視覚的概念を整合させ、画像内の領域にモデル応答をアンカーする能力で同クラス最高
実用例: 教育分野では、Llama 4を使用して生徒の書いたグラフや図表の分析を自動評価できます。また、プログラミング教育では、学生のコードを分析し、具体的なフィードバックやエラー修正の提案を行うことができます。
コスト効率性の検討
Llama 4モデルは、パフォーマンスだけでなくコスト効率も考慮されています:
推論コストの比較
- Llama 4 Maverick: 100万トークン(入力3:出力1)あたり約20〜50セント
- GPT-4o: 100万トークンあたり約$4.38(Maverickの約8.8倍)
- Gemini 2.0 Flash: 100万トークンあたり約$1.7(Maverickの約3.4倍)
- DeepSeek V3.1: 100万トークンあたり約50セント(Maverickと同等)
デプロイオプション
- 単一H100 GPU: Llama 4 Scoutは単一のNVIDIA H100 GPUで実行可能(Int4量子化で)
- 単一H100 DGXホスト: Llama 4 Maverickは単一のNVIDIA H100 DGXホストで実行可能
- 分散推論: 最大効率のための分散推論オプションも利用可能
実用例: スタートアップ企業は、クラウドでのAPIコスト削減のためにLlama 4モデルをセルフホストできます。例えば、月間100万クエリを処理する企業がGPT-4oから同等機能のLlama 4 Maverickに切り替えることで、月額数千ドルのコスト削減が可能です。
第5部:アクセスと可用性
ダウンロードオプション
Llama 4モデルは、以下の方法でアクセス可能です:
公式ダウンロードチャネル
- llama.com: 公式ウェブサイトからのダウンロード
- Hugging Face: Metaの公式Hugging Faceリポジトリからのダウンロード
利用可能なバージョン
- 事前訓練モデル: 基本的な次単語予測モデル
- 指示調整済みモデル: チャットや指示に従うように微調整されたモデル
- FP8バージョン: より小さなコンピューティングマシンでの実行を容易にする8ビット浮動小数点精度バージョン
ダウンロード制限
Metaのダウンロードプロセスには以下の制限があります:
- Hugging Faceアカウントへのログインが必要
- フォーム記入と法的氏名の提供が必要
- 48時間以内に最大5回のダウンロードに制限
ライセンスの考慮事項
Llama 4モデルは特定のライセンス条件の下で提供されています:
Llama Community License Agreementの主な条件
- MAU制限: 月間アクティブユーザー(MAU)が7億人を超える組織は使用不可
- 属性要件: モデルを使用した製品やサービスには「built with Llama」の表示が必要
- モデル命名要件: Llamaをベースにして訓練、微調整、または改善されたAIモデルには「Llama」を名前の先頭に含める必要がある
- コピー要件: 配布されるLlamaマテリアルのすべてのコピーには、特定の帰属通知を含める必要がある
ライセンスに関する議論
一部のコミュニティメンバーは、これらの制限がオープンソースの原則と矛盾すると主張しています。標準的なオープンソースの定義では、使用、研究、再配布、修正の自由が求められます。
Metaプロダクトとの統合
Llama 4モデルは、以下のMetaプロダクトですでに利用可能です:
- WhatsApp: Llama 4を利用したMeta AI機能
- Messenger: Llama 4を利用したMeta AI機能
- Instagram Direct: Llama 4を利用したMeta AI機能
- Meta.AI: Webサイト(meta.ai)でのLlama 4を利用したAIアシスタント
これらの統合により、Metaのユーザーは新しいLlama 4モデルの機能をすぐに体験できます。
実用例: WhatsAppユーザーは、チャット内で直接Llama 4に画像を送信し、その内容の説明や分析を受け取ることができます。例えば、レシートの写真を送ると、支出の詳細な分析や予算管理の提案を受け取ることができます。
学習クイズ:Llama 4のアクセスと利用
-
Llama 4のライセンスによる使用制限として正しいのはどれですか?
- 商用利用は禁止されている
- 月間アクティブユーザーが7億人を超える組織は使用できない
- 政府機関は使用できない
- 教育機関のみ使用可能
-
Llama 4モデルを使ったアプリケーションを公開する際に必要なのは?
- 「built with Llama」の表示
- Metaへの収益の一部支払い
- Metaによる事前承認
- ソースコードの公開
第6部:議論とコントロバシー
「オープンソース」分類に関する議論
Llama 4のリリースには、「オープンソース」という分類に関する議論が伴っています:
主要な議論ポイント
- オープンソースの定義: オープンソースソフトウェアの標準的な定義によれば、自由に使用、学習、再配布、修正ができることが基本原則です。
- アクセス障壁: Llama 4のダウンロードには、アカウント登録、個人情報の提供、フォーム記入などの障壁があります。
- 使用制限: MAU制限やその他のライセンス制限は、オープンソースの「自由な使用」の原則と矛盾する可能性があります。
代替用語の提案
一部のコミュニティメンバーは、「オープンウェイト」や「オープンモデル」などの代替用語を提案しています。これらの用語は、モデルの重みが公開されていることを認めつつも、従来のオープンソースの定義には完全には適合していないことを示唆しています。
実用例: ある開発者は、Llama 4を微調整して特定の業界向けのモデルを作成しましたが、名前に「Llama」を含める必要があり、独自ブランドの確立に課題を感じています。一方、中小企業の多くは、これらの制限が実質的な障害にならないと考え、コスト効率の良いオプションとしてLlama 4を採用しています。
ライセンス制限とその影響
Llama 4のライセンス制限は、モデルの採用とエコシステムに影響を与える可能性があります:
影響の可能性
- 大規模プラットフォームの除外: GoogleやOpenAIなどの大規模企業は、Llamaモデルを使用できない可能性があります。
- 表示要件の負担: 「built with Llama」の表示要件や命名要件は、一部の開発者にとって負担となる可能性があります。
- 混乱の可能性: 標準的なオープンソースライセンスとは異なる独自のライセンスは、法的解釈や適用範囲に関する混乱を招く可能性があります。
コミュニティの反応
一部のAIコミュニティメンバーからは、これらの制限に対する批判的な声が上がっています。一方で、オープンソースの「精神」を守りながらモデルの潜在的な悪用から保護するためのバランスの取れたアプローチだと評価する声もあります。
第7部:将来の展望
Llama 4 Reasoningの展望
Metaは、近い将来にLlama 4シリーズの新しいモデルである「Llama 4 Reasoning」をリリースする予定です:
- Llama 4 Reasoningに関する詳細は今後1ヶ月以内に共有される予定
- 推論(Reasoning)に特化したモデルであることから、複雑な論理的推論や問題解決に優れている可能性が高い
- これにより、Llama 4エコシステムはさらに多様化し、特定のユースケースに最適化されたモデルの選択肢が増える
実用例: Llama 4 Reasoningは、科学研究での複雑な仮説検証や、法律文書の論理的分析、数学的問題解決などの分野で特に有用になると予想されます。例えば、新薬開発のための複雑な分子相互作用の推論や、複雑な法律ケースの法的推論を支援できる可能性があります。
Behemothの継続的訓練
Llama 4 Behemothは、現在も訓練が続けられています:
- すでに世界最高のベースモデルのパフォーマンスを示しながらも、訓練はまだ完了していない
- 訓練完了後のBehemothの性能と、それによる他のLlama 4モデルへの影響が期待される
- Metaは「訓練中」のモデルについて情報共有するという珍しいアプローチを取っており、AIモデル開発の透明性向上に貢献している
まとめと総合理解度チェック
Llama 4は、Metaによる大規模言語モデルの新世代を代表するものであり、いくつかの重要な革新をもたらしています:
- Mixture of Experts (MoE)アーキテクチャの採用により、計算効率と推論効率を大幅に向上
- ネイティブな多モダリティ機能でテキストと画像を統合的に理解
- 10M(1000万)トークンの超長コンテキストウィンドウで大規模文書処理が可能
- 3つのモデルバリエーション(Scout、Maverick、Behemoth)で異なるユースケースに対応
- 優れたパフォーマンスとコスト効率性で、他の主要なAIモデルと競争
しかし、「オープンソース」としての分類やライセンス制限に関する議論もあります。これらの制限にもかかわらず、Llama 4は開発者や組織が高性能AIモデルにアクセスし、独自のアプリケーションを構築するための重要なステップとなっています。
Metaが予告している「Llama 4 Reasoning」モデルと、訓練中の「Llama 4 Behemoth」の完成により、Llama 4エコシステムはさらに発展することが期待されます。AIの高度な能力を広く利用可能にするというMetaのビジョンにおいて、Llama 4は重要なマイルストーンとなるでしょう。
総合理解度クイズ
-
Llama 4の革新的技術のうち、Mixture of Experts (MoE)の主な利点は?
- 推論効率の向上
- 訓練データの削減
- ハードウェア要件の増加
- モデルサイズの増加
-
Llama 4 Behemothの主な目的は?
- 一般消費者向けアシスタントとして機能する
- 小規模モデルの「教師」として知識蒸留に使用される
- Metaプラットフォームの独占モデルとして機能する
- 研究目的のみに使用される
-
Llama 4 Scoutの超長コンテキストを可能にした技術は?
- MetaP訓練技術
- 強化学習
- iRoPEアーキテクチャ
- 知識蒸留
-
Llama 4のライセンスで正しいのはどれ?
- 完全な商用利用が禁止されている
- 制限のない完全なオープンソースライセンス
- 特定の使用制限と表示要件がある準オープンライセンス
- 教育目的にのみ使用可能