はじめに
- GeminiはGoogleが開発した画像・音声・動画・テキストを統合的に理解する高性能なマルチモーダルモデルである
- Transformerデコーダーをベースに改良
- Ultra/Pro/Nanoの3サイズで対応
- Ultra:最も高度な推論タスク向け
- Pro:コスト効率と低レイテンシーを重視
- Nano:デバイス上での実行に最適化(1.8B/3.25Bパラメータ)
Geminiのスモールモデル「Nano」は、バイス上での実行に特化したモデルとして提供されます。
Geminiのスモールモデル「Nano」の詳細
1. 概要
- デバイス上での実行に特化した最も効率的なモデル
- 2つのバリエーション:
- Nano-1: 1.8Bパラメータ (低メモリデバイス向け)
- Nano-2: 3.25Bパラメータ (高メモリデバイス向け)
- より大きなGeminiモデルからの蒸留学習で構築
2. 性能特性
- 要約・読解タスクで特に高いパフォーマンス
- Proモデルと比較した相対性能:
- BoolQ: Nano-1で71.6%(0.81倍)、Nano-2で79.3%(0.90倍)
- TydiQA: Nano-1で68.9%(0.85倍)、Nano-2で74.2%(0.91倍)
- NaturalQuestions:
- Retrieved: Nano-1で38.6%(0.69倍)、Nano-2で46.5%(0.83倍)
- Closed-book: Nano-1で18.8%(0.43倍)、Nano-2で24.8%(0.56倍)
3. 高度なタスクでの性能
- 推論・コーディング・STEM分野での能力:
- BIG-Bench-Hard: Nano-1で34.8%(0.47倍)、Nano-2で42.4%(0.58倍)
- MBPP: Nano-1で20.0%(0.33倍)、Nano-2で27.2%(0.45倍)
- MATH: Nano-1で13.5%(0.41倍)、Nano-2で22.8%(0.70倍)
- MMLU: Nano-1で45.9%(0.64倍)、Nano-2で55.8%(0.78倍)
4. 技術的特徴
- 4ビット量子化による最適化
- 効率的な蒸留学習技術の活用
- デバイス上での実行に特化した最適化
5. 主な用途・展開
- オンデバイスでの要約生成、テキスト補完タスク
- リアルタイムの読解支援
- マルチモーダル・多言語処理
参照資料