Gemma 3 の特徴と技術的進化：画像入力対応、効率的なアーキテクチャ、知識蒸留の活用

Posted at 2025-03-17

Google DeepMind の最新オープンモデル「Gemma 3」は、1B から 27B までのパラメータ規模で展開され、画像入力に対応することで、より多様なタスクに適用可能となりました。特に 4B モデルは前世代の Gemma 2 27B に匹敵する性能を持ち、27B モデルは Gemini 1.5 Pro に匹敵するほどの高性能を実現しています。

本記事では、Gemma 3 のアーキテクチャ、視覚エンコーダ、学習データ、知識蒸留、量子化、事後学習、出力フォーマットの工夫について詳しく解説します。

1. アーキテクチャの工夫：計算量削減と長距離依存関係の考慮

Gemma 3 では、Transformer の構造が最適化され、効率的な計算と長距離依存関係の処理が実現されています。

1.1. Sliding Window Attention の導入

通常の Transformer では 全てのトークンに対する Attention を計算するため、長いコンテキストを扱う際に計算負荷とメモリ消費が大きくなります。Gemma 3 では、以下の ハイブリッドアプローチを採用し、効率化を図っています。

5:1 の割合で Local（局所的）と Global（大域的）Attention を交互に配置
- Local Attention：1K トークン単位でのスライディングウィンドウ Attention を適用し、計算コストを削減
- Global Attention：長距離依存関係を処理するため、定期的にグローバルな情報を参照
KV キャッシュの削減
- この設計により、必要な Key-Value キャッシュ（KV キャッシュ）が 従来の 1/3 に削減され、省メモリ化

1.2. RoPE 周波数の調整

位置エンコーディングには **RoPE（Rotary Position Embedding）**を採用していますが、基本周波数を Local と Global で差別化することで、より広範囲の情報を効果的に処理できるようにしています。

Local Attention の RoPE 基本周波数は 10K（従来通り）
Global Attention の RoPE 基本周波数は 1M（より広範囲に対応）
**ポジション補間（Position Interpolation）**の導入により、スムーズなスケーリングを実現

2. 画像入力対応：視覚エンコーダの採用

Gemma 3 は 画像入力を処理できるマルチモーダルモデルとして設計されており、その中核を担うのが SigLIP 符号化器です。

2.1. SigLIP 符号化器

視覚情報を効果的にエンコードするために、417M パラメータを持つ SigLIP モデルを使用。
ただし、学習時にはこのエンコーダを固定しており、これは設計上の制約（仕方なくそうしている）とされています。

2.2. Pan & Scan 手法

異なる解像度の画像を統一的に処理するために、Pan & Scan 手法を適用。
これにより、可変解像度の画像を固定解像度に変換して扱うことが可能となりました。

3. 学習データの工夫：大量データと知識蒸留

Gemma 3 では、モデルのスケールに応じた適切なデータ量が使用されています。

モデルサイズ	学習データ量（トークン数）
1B	2T
4B	4T
12B	12T
27B	14T

すべてのモデルにおいて、**知識蒸留（Knowledge Distillation）**を活用し、教師モデルからの学習が行われています。

3.1. 教師モデルと知識蒸留の仕組み

教師モデルの詳細は非公開（ただし、Gemini 系列の可能性が高い）
教師モデルから 256 のロジットをサンプリング
非サンプリングロジットをゼロ確率に設定し、再正規化
これを目標に クロスエントロピー損失を適用

この方法により、より洗練された出力が得られるようになっています。

3.2. 多言語データのバランス調整

Gemma 3 は多言語対応を強化するために、**Unimax（多言語バランシング手法）**を採用。

4. 量子化と事後学習

4.1. 量子化を意識した学習

Gemma 3 は、量子化（Quantization）を前提とした学習を行うことで、モデルの軽量化と推論速度の向上を実現しています。

4.2. 事後学習（Post-Training）

モデルの適応能力を高めるために、以下の手法が利用されています。

BoND（Bias-Optimized Neural Distillation）
WARM（Weighted Adaptive Representation Matching）
WARP（Weighted Adaptive Representation Pretraining）

さらに、指示理解と指示追従にも知識蒸留を活用しており、ユーザーの意図を正確に汲み取る能力が向上しています。

5. 出力フォーマットの工夫

5.1. BOS トークンの明示的追加

Gemma 3 では、出力フォーマットの安定化のために BOS（Beginning of Sequence）トークンを明示的に追加しています。

5.2. 指示チューニング時の特殊トークン

ユーザーとモデルのやりとりを明確化するために、指示チューニング時にはユーザー側・モデル側のターンを示す特殊トークンを追加しています。
これにより、指示に対するモデルの応答がより明確になり、一貫性のある対話が可能になります。

まとめ

Gemma 3 は、画像入力対応、計算量削減、視覚エンコーダの採用、知識蒸留、量子化、事後学習の工夫など、最先端の技術を取り入れたオープンモデルです。

特に 27B モデルが Gemini 1.5 Pro に匹敵する性能を持つ点は注目に値します。
また、5:1 の Local / Global Attention や RoPE の周波数調整による計算効率の向上、SigLIP 符号化器による画像処理、量子化を考慮した学習など、多くの技術的な工夫が詰め込まれています。

今後、オープンモデルとしてどのような進化を遂げるのか、非常に楽しみですね。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up