Gemini Advanced モデル比較
Geminiは、Google DeepMindによって開発された大規模言語モデル(LLM)です。Gemini Advancedは、より強力なAIモデルと機能へのアクセスを提供する、Geminiのプレミアムバージョンです。Googleアカウントを持っているユーザーは誰でも無料でGeminiを使用できますが、Gemini Advancedはより大きく、より高速なGeminiモデルをアンロックし、Googleのサービスへのより深い統合と、Googleアカウントのストレージ増加などの追加の利点をもたらします。 無料のGoogleアカウントではGemini 1.5 Flashにアクセスできます。これは日常的なタスクに最適です。Gemini Advancedでは、Gemini 1.5 Pro、Deep Researchを搭載した1.5 Pro、そして実験的なGemini 2.0モデルといった、より強力なモデルにアクセスできます。 Gemini Advancedユーザーは、最大100万トークン(1,500ページに相当)を処理できる、より大きなコンテキストウィンドウも利用できます。
Gemini Advanced モデルの概要
Gemini Advancedには、現在4つのモデルがあります。
- Gemini 1.5 Pro
- Deep Researchを搭載したGemini 1.5 Pro
- Gemini 2.0 Flash
- Gemini 2.0 Experimental
これらのモデルはそれぞれ、サイズ、学習データ、パラメータ数、推論速度、精度、得意なタスク、価格、APIの提供状況が異なります。以下に、それぞれのモデルについて詳しく説明します。
Gemini 1.5 Pro
Gemini 1.5 Proは、幅広い推論タスクに最適化された中規模のマルチモーダルモデルです。 標準では128,000トークンのコンテキストウィンドウを備えています。 AI StudioおよびVertex AIを介して、最大100万トークンのコンテキストウィンドウを試すこともできます。 1.5 Proは、2時間のビデオ、19時間のオーディオ、60,000行のコードを含むコードベース、または2,000ページのテキストなど、大量のデータを一度に処理できます。
このモデルは、Mixture-of-Experts(MoE)アーキテクチャに基づいて構築されています。MoEの利点は、モデルの総パラメータ数を増やしつつ、アクティブ化されるパラメータ数を一定に保てることです。 これにより、モデルのトレーニングと提供の効率が向上し、最大1,000万トークンまでの長いコンテキストを理解できるようになります。 100万トークンという拡張されたコンテキストウィンドウは、Gemini 1.5 Proの画期的な機能です。これにより、モデルは膨大な量の情報を処理し、複雑な推論タスクを実行できます。 例えば、アポロ11号の月面ミッションの402ページの議事録が与えられた場合、文書全体にわたる会話、イベント、詳細について推論できます。 また、44分間の無声映画を分析し、プロットポイントやイベントを正確に分析し、見落とされがちな小さな詳細についても推論できます。 さらに、100,000行を超えるコードを含むプロンプトが与えられた場合、例全体でより適切に推論し、役立つ修正を提案し、コードのさまざまな部分の動作に関する説明を提供できます。
「干し草の山の中の針(NIAH)」評価では、特定の事実またはステートメントを含む小さなテキストが、意図的に長いテキストブロック内に配置されます。この評価において、1.5 Proは、最大100万トークンのデータブロックで、99%の確率で埋め込まれたテキストを見つけました。 Gemini 1.5 Proは、「インコンテキスト学習」スキルも優れています。これは、追加の微調整を必要とせずに、長いプロンプトで与えられた情報から新しいスキルを学習できることを意味します。
Gemini 1.5 Proは、テキスト、コード、画像、音声、ビデオなど、さまざまなモダリティからの情報を処理および理解できます。 このマルチモーダル機能により、仮想アシスタントやインタラクティブなチャットボットなどのアプリケーションに適しています。 また、テキストの説明に基づいて画像を生成する機能も備えています。 さらに、開発者を支援するために、コードの記述、デバッグ、最適化を行うこともできます。 内部評価では、Gemini 1.5 Proは機能的なコードスニペットを生成する際に高い精度を示し、多くの既存のAIコーディングアシスタントを上回っています。 プログラミング言語の理解とコーディングの課題を解決する能力により、ソフトウェアエンジニアにとって貴重なツールとなっています。
Gemini 1.5 Proは40以上の言語をサポートしており、さまざまなバックグラウンドを持つユーザーが好みの言語でモデルと対話できます。 この機能は、言語の壁を越えたシームレスなコミュニケーションを促進するため、グローバルなビジネスや組織にとって特に役立ちます。
Model | Context Window | Training Data | Parameter Count | Inference Speed | Accuracy | Strengths | Pricing | API Availability |
---|---|---|---|---|---|---|---|---|
Gemini 1.5 Pro | 128,000 tokens (standard), up to 1 million tokens (AI Studio & Vertex AI) | Apollo 11号の月面ミッションの402ページの議事録、44分間の無声映画、100,000行を超えるコードを含むデータなど | 情報なし | 2,000 RPM, 4 million TPM | 99% (NIAH評価) | 膨大な量の情報を処理 複雑な推論タスクを実行 マルチモーダル機能 画像生成 コーディング支援 多言語処理 (40以上の言語をサポート) |
100万トークンあたり7ドル | Gemini APIで利用可能 |
Deep Researchを搭載したGemini 1.5 Pro
Deep Researchを搭載したGemini 1.5 Proは、Gemini 1.5 Proの機能に加えて、Deep Researchと呼ばれる強力な調査機能を備えています。Deep Researchを使用すると、Geminiはリアルタイムで数百のWebサイトを自動的に閲覧および分析し、ほぼすべてのトピックについて、数分以内に包括的な調査レポートを提供できます。 これは、競合分析、詳細なトピックの調査、さまざまなソースからの情報を必要とする複雑な主題の調査などのタスクに役立ちます。 Deep Researchを搭載したGemini 1.5 Proは、人間がさまざまなソースを調べて情報を統合するのと同じように、Web全体からの情報の詳細な分析を実行します。 その後、主要な調査結果、整理されたセクション、元のソースへのリンクを含む包括的なレポートを生成します。
Model | Context Window | Training Data | Parameter Count | Inference Speed | Accuracy | Strengths | Pricing | API Availability |
---|---|---|---|---|---|---|---|---|
Deep Researchを搭載したGemini 1.5 Pro | 100万トークン | 情報なし | 情報なし | 情報なし | 情報なし | Deep Researchによる強力な調査機能 リアルタイムでのWebサイトの自動閲覧・分析 包括的な調査レポートの生成 |
Google One AI Premiumプランの一部として利用可能 | 情報なし |
Gemini 2.0
Gemini 2.0は、Googleの次世代モデルであり、マルチモーダル出力、ネイティブツール使用、およびエージェント機能を備えています。 「思考モード」は、推論を強化し、段階的な説明を提供する傑出した機能です。 Gemini 2.0は、単一のプロンプトで、テキスト、AI生成のビジュアル、多言語テキスト読み上げ音声などを含む、組み合わせた出力を生成する機能もサポートしています。 ユーザーは、音声のトーンとスタイルを微調整することもできます。
Gemini 2.0は、以前のモデルのように画像や音声を分析前にテキストに変換する必要がなく、それらをネイティブに処理します。 目標は、変換に伴う情報損失をなくすことです。直接処理により、入力のより豊かで微妙なニュアンスを理解し、そうでなければ失われてしまう微妙な違いや文脈の手がかりを捉えることができます。 Gemini 2.0は、中間テキスト変換ステップをバイパスすることで、マルチメディアコンテンツのより正確で効率的な解釈を約束します。
Gemini 2.0 Flashは、開発者にとって最も人気のあるモデルである1.5 Flashの成功に基づいて構築されており、同様の高速応答時間でパフォーマンスが向上しています。 注目すべきは、2.0 Flashは主要なベンチマークで1.5 Proを上回り、速度は2倍です。 2.0 Flashには、新しい機能も搭載されています。画像、ビデオ、音声などのマルチモーダル入力をサポートすることに加えて、2.0 Flashは、テキストと混合されたネイティブに生成された画像や、ステアリング可能なテキスト読み上げ(TTS)多言語音声などのマルチモーダル出力をサポートするようになりました。 また、Google検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出すこともできます。
Gemini 2.0 Flashのネイティブユーザーインターフェースアクション機能は、マルチモーダル推論、長いコンテキストの理解、複雑な指示の追跡と計画、構成関数呼び出し、ネイティブツール使用、レイテンシの改善などの他の改善点とともに、すべて連携して動作し、新しいクラスのエージェントエクスペリエンスを実現します。
Gemini 2.0には、リアルタイムのオーディオおよびビデオストリーミングインタラクションを可能にする新しいMultimodal Live APIが付属しています。 Multimodal Live APIを使用すると、エンドユーザーに自然で人間のような音声会話のエクスペリエンスを提供し、音声コマンドを使用してモデルの応答を中断する機能を提供できます。 モデルは、テキスト、音声、ビデオ入力を処理でき、テキストと音声出力を提供できます。 Multimodal Live APIは、Gemini APIでBidiGenerateContentメソッドとして使用でき、WebSockets上に構築されています。
Model | Context Window | Training Data | Parameter Count | Inference Speed | Accuracy | Strengths | Pricing | API Availability |
---|---|---|---|---|---|---|---|---|
Gemini 2.0 Flash | 100万トークン | Google検索、コード実行、サードパーティのカスタム関数を含むデータ | 情報なし | 1.5 Proの2倍の速度 | 情報なし | 高速応答時間 マルチモーダル出力 ネイティブツール使用 強化されたエージェント機能 |
情報なし | Gemini APIで利用可能(実験的プレビュー) |
Gemini 2.0 Experimental | 情報なし | 情報なし | 情報なし | 情報なし | 情報なし | コーディング、数学、推論、指示の追跡に優れている | Google One AI Premiumプランの一部として利用可能 | 情報なし |
結論
Gemini Advancedの各モデルは、それぞれ異なる特性と強みを持っています。Gemini 1.5 Proは、幅広い推論タスクに最適化されており、Deep Researchを搭載したGemini 1.5 Proは、強力な調査機能を備えています。Gemini 2.0は、マルチモーダル出力、ネイティブツール使用、エージェント機能など、次世代の機能を提供します。
どのモデルが最適かは、ユーザーのニーズやユースケースによって異なります。複雑な推論タスクや大量のデータ処理が必要な場合は、Gemini 1.5 Proが適しています。詳細な調査が必要な場合は、Deep Researchを搭載したGemini 1.5 Proが最適です。最新のAI機能を利用したい場合は、Gemini 2.0が適しています。
Googleは、Geminiの開発を継続し、今後も新しいモデルや機能を追加していく予定です。Geminiは、AIの未来を形作る可能性を秘めた、強力なLLMです。