0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

論文

  • タイトル:Gemini: A Family of Highly Capable Multimodal Models
  • 原文:arXiv:2312.11805
  • 著者:Gemini Team, Google(Google DeepMind)

この論文を読んだきっかけ

業務の実プロジェクトで、マルチモーダルLLMを利用する機会があり、モデルの性能を把握するための調査。

免責事項

この投稿は、個人的なメモです。内容理解や翻訳には、生成AIを利用しています。より詳細な内容や正確な内容を知りたい方は、論文の原文を参照してください。
Gemini論文は、90ページにおよびます。このメモは、そのうち前半の40ページのサマリーです。後半50ページの内容は含まれません。論文には、実験結果の図表が多数掲載されていますが、このメモには図表を掲載していません。また、論文には、様々なリファレンスが示されていますが、このメモには、リファレンスの内容は含まれません。
論文を正しく理解するためには、比較のベースとなるベンチマークの内容や比較対象のモデルについて把握する必要がありますが、ベンチマークの内容や比較対象のモデルについての内容も含まれていません。

サマリー

Geminiは、Google DeepMindが開発した、画像、音声、動画、テキストを理解する、新しいマルチモーダルモデルファミリーです。この論文では、複雑な推論タスクからデバイス上のメモリ制約のあるユースケースまで、幅広いアプリケーションに適したUltra、Pro、Nanoの3つのサイズからなるGeminiファミリーを紹介しています。

Geminiの主な特徴と成果は以下の通りです。

  • 最先端の性能: Gemini Ultraは、報告された32のベンチマークのうち30で最先端の結果を達成し、特に有名な試験ベンチマークであるMMLUで初めて人間レベルの性能(90%以上のスコア)を達成しました。
  • マルチモーダル推論: 従来のテキストベースのモデルを超えて、画像、音声、動画を統合的に理解し、推論することができます。例えば、図表や数式の理解、動画の内容に基づいた質問応答、音声と画像を組み合わせた指示の理解などが可能です。
  • 効率性: Gemini Nanoは、要約、読解、テキスト補完などのデバイス上タスクに優れており、推論、STEM、コーディング、マルチモーダル、多言語タスクにおいて、そのサイズに対して優れた能力を発揮します。
  • 責任ある展開: Googleは、Geminiモデルの潜在的な社会的影響を特定、測定、管理するために、責任ある展開への体系的なアプローチを採用しています。これには、影響評価、モデルポリシーの開発、評価、および展開前の害の軽減策が含まれます。

論文では、以下の内容について詳細に説明されています。

  • モデルアーキテクチャ: Transformerデコーダーをベースに、大規模なトレーニングを安定させ、GoogleのTensor Processing Unitでの推論を最適化するための改良が加えられています。
  • トレーニングインフラストラクチャ: TPUv5eとTPUv4を使用してトレーニングされ、大規模なトレーニングのための新しいインフラストラクチャの課題と解決策について説明されています。
  • 事前トレーニングデータセット: ウェブドキュメント、書籍、コード、画像、音声、動画データを含むマルチモーダルかつ多言語のデータセットを使用してトレーニングされています。
  • 評価: テキスト、コード、画像、音声、動画のベンチマークで、Geminiモデルファミリーの性能を評価し、英語の性能と多言語機能の両方を網羅しています。
  • 事後トレーニング: 事後トレーニングのアプローチについて説明し、Gemini AppsモデルとGemini APIモデルのバリアントの共通点と相違点を強調し、主要な機能の性能をベンチマークしています。
  • 責任ある展開: 影響評価、モデルポリシーの開発、評価、および展開前の害の軽減策について説明し、責任あるAIの研究と革新の新しい時代への道を切り開いています。

Geminiは、AIにおける大きな進歩であり、以下のような幅広い分野での応用が期待されています。

  • 教育: 個別学習やインテリジェントな個別指導システムの可能性を広げます。
  • 問題解決: 複雑な問題を解決するための新しいツールを提供します。
  • コミュニケーション: 多言語コミュニケーションをより容易にします。
  • 情報アクセス: 情報の要約、抽出、創造性を高めます。

論文では、LLMの限界についても言及しています。

  • ハルシネーション: モデルが事実とは異なる情報を生成する問題があり、信頼性と検証可能性の向上が課題です。
  • 高度な推論能力: 因果関係の理解、論理的推論、反事実的推論などの高度な推論能力は、まだ十分ではありません。

Geminiは、AIの将来にとって重要な一歩であり、Googleは、これらのモデルがGoogle内外でどのように使用されるかを楽しみにしています。

Abstract

このレポートでは、画像、音声、動画、テキストの理解において優れた機能を発揮する新しいマルチモーダル モデル ファミリ、Gemini を紹介します。Gemini ファミリは、Ultra、Pro、Nano のサイズで構成され、複雑な推論タスクからデバイス上のメモリが制限されたユース ケースまで、さまざまなアプリケーションに適しています。幅広いベンチマークで評価した結果、最も高性能な Gemini Ultra モデルは、これらのベンチマーク 32 のうち 30 で最先端の技術を上回っていることがわかりました。特に、よく研究された試験ベンチマーク MMLU で人間と同等のパフォーマンスを達成した最初のモデルであり、調査した 20 のマルチモーダル ベンチマークすべてで最先端の技術を上回っています。Gemini ファミリのクロスモーダル推論と言語理解における新しい機能により、さまざまなユース ケースが可能になると考えています。Gemini、Gemini Advanced、Google AI Studio、Cloud Vertex AI などのサービスを通じて、Gemini モデルのトレーニング後およびユーザーへの責任ある展開に向けたアプローチについて説明します。

1. Introduction

Gemini論文の1. Introductionでは、Googleが開発した新しいマルチモーダルモデルファミリーである Gemini を紹介しています。

Geminiの特徴は以下の点が強調されています。

  • マルチモーダル: 画像、音声、動画、テキストデータを用いて統合的に学習され、各モダリティを理解するだけでなく、モダリティ間の関係性も理解できる。
  • 高性能: 各モダリティにおいて最先端の理解力と推論能力を持つ。
  • 汎用性: 複雑なタスクからデバイス上のメモリ制約のあるユースケースまで、幅広いアプリケーションに対応できるよう、Ultra、Pro、Nanoの3つのサイズが用意されている。

Introductionでは、Geminiの具体的な成果として下記が挙げられています。

  • ベンチマークでの成果: 32のベンチマークのうち30で最先端の結果を達成。特に、多様な試験問題からなるベンチマークMMLUでは、初めて人間レベルの性能を達成した。
  • マルチモーダル推論能力: 従来のモデルでは困難だった、複数のモダリティを組み合わせた複雑な推論タスクを解くことができる。例えば、図に書かれた物理問題を理解し、手書きの解答を評価し、誤りを指摘し、正しい解答をLaTeXで生成するといったタスクが可能。
  • AlphaCode 2: Geminiの推論能力を活かした、競技プログラミング問題を解くエージェント。検索とツール使用を組み合わせることで、従来のAlphaCodeよりも大幅に性能が向上し、Codeforces競技プログラミングプラットフォームで上位15%に入る成績を収めた。
  • Gemini Nano: デバイス上での利用に特化した小型モデル。要約、読解、テキスト補完などのタスクで優れた性能を発揮する。

最後に、論文の構成について簡単に触れられています。

  • モデルアーキテクチャ、トレーニングインフラストラクチャ、事前トレーニングデータセットについて説明。
  • 事前トレーニング済みモデルと事後トレーニング済みモデルの評価結果を報告。
  • 事後トレーニングのアプローチ、Gemini AppsモデルとGemini APIモデルの違いについて議論。
  • 責任あるモデル展開のためのGoogleのアプローチについて説明。
  • Geminiモデルの広範な影響、限界、潜在的なアプリケーションについて議論。

要約すると、Introductionでは、Geminiが従来のモデルを超えるマルチモーダル理解と推論能力を持つ、新しいAIモデルファミリーであることを示し、その性能と応用可能性、そして責任ある開発への取り組みを強調しています。

2. Model Architecture

Gemini論文の2. Model Architectureでは、Geminiモデルのアーキテクチャについて解説しています。

Geminiのアーキテクチャは、以下の要素を基盤に構築されています。

  • Transformer Decoder: 自然言語処理で広く成功を収めているTransformerのDecoder部分をベースに採用。
  • 大規模化: GoogleのTensor Processing Unit (TPU) での安定した学習と効率的な推論を可能にするため、アーキテクチャとモデル最適化に改良を加えている。
  • 長文コンテキスト対応: 効率的な注意機構 (例: multi-query attention) を採用し、32kトークンのコンテキスト長をサポート。

Gemini 1.0は、幅広いアプリケーションに対応するため、3つのサイズで提供されています。

  • Ultra: 最も複雑なタスクに対応する、最も高性能なモデル。
  • Pro: 性能とスケーラビリティを向上させたモデル。
  • Nano: デバイス上での利用に特化した、最も効率的なモデル。

Geminiは、テキスト入力だけでなく、音声や視覚入力も処理できるように設計されています。

  • 入力: 自然画像、チャート、スクリーンショット、PDF、動画など、様々な音声・視覚入力をテキスト入力と組み合わせて処理可能。
  • 出力: テキストと画像を出力可能。
  • 視覚エンコーディング: Flamingo、CoCa、PaLIといったGoogleの基盤研究から着想を得ており、モデル初期段階からマルチモーダルに設計されている点が特徴。
  • 動画理解: 動画をフレームのシーケンスとしてエンコードし、長文コンテキストウィンドウ内で処理。
  • 可変入力解像度: 細粒度の理解が必要なタスクでは、より多くの計算リソースを割り当てるため、可変入力解像度に対応。
  • 音声入力: Universal Speech Model (USM) の16kHz音声特徴量を直接入力として使用。

図2では、Geminiモデルのアーキテクチャの概要が示されています。

  • 入力シーケンスは、テキスト、画像、音声、動画のトークンが混在した形で表現される。
  • Transformer Decoderを用いて、入力シーケンスを処理。
  • 出力として、テキストと画像を生成。

要約すると、Geminiのアーキテクチャは、Transformer Decoderをベースに、大規模化、長文コンテキスト対応、マルチモーダル入力処理といった特徴を持つように設計されています。これにより、様々なタスクにおいて高性能を発揮し、幅広いアプリケーションに対応できるようになっています。

3. Training Infrastructure

Gemini論文の3. Training Infrastructureでは、Geminiモデルのトレーニングに使用されたインフラストラクチャについて解説しています。

Geminiのトレーニングには、Googleが所有する大規模なTPUv4アクセラレータ群が使用されました。

  • TPUv5eとTPUv4: モデルサイズと構成に応じて使い分け。Gemini Ultraのトレーニングには、多数のTPUv4アクセラレータを使用。
  • 大規模化: 以前のフラッグシップモデルであるPaLM-2よりも大幅に規模を拡大。アクセラレータ数の増加に伴い、ハードウェアの平均故障間隔が短縮されるという課題が発生。
  • 計画的な再スケジュールとプリエンプションの最小化: ハードウェア障害は、このような大規模なシステムでは避けられないため、計画的な再スケジュールとプリエンプションを最小限に抑えることで対応。

TPUv4アクセラレータは、以下のような構成で運用されています。

  • SuperPod: 4096個のチップを専用光スイッチで接続した構成。
  • 動的再構成: 4x4x4チップのキューブを任意の3Dトーラス構成に約10秒で再構成可能。
  • ホットスタンバイとローリングメンテナンス: Gemini Ultraでは、SuperPodあたりのキューブ数を少なくすることで、ホットスタンバイとローリングメンテナンスを可能に。

大規模なGemini Ultraのトレーニングでは、複数のデータセンターにまたがるSuperPodを接続するために、Googleのイントラクラスタおよびインタークラスタネットワークを活用。

  • 高帯域幅・低遅延: Googleのネットワークは、SuperPod間で同期トレーニングを行うのに十分な帯域幅と低遅延を提供。
  • モデル並列化とデータ並列化: SuperPod内ではモデル並列化、SuperPod間ではデータ並列化を活用。

トレーニングの効率化:

  • シングルコントローラプログラミングモデル: JaxとPathwaysのシングルコントローラプログラミングモデルにより、トレーニング全体を単一のPythonプロセスで管理。
  • GSPMDパーティショナーとMegaScale XLAコンパイラ: トレーニングステップの計算を分割し、適切なコレクティブを静的にスケジュールすることで、計算とのオーバーラップを最大化。
  • 冗長なインメモリコピー: 従来の定期的なチェックポイントによる重み保存ではなく、モデル状態の冗長なインメモリコピーを使用。
  • 迅速なリカバリ: 計画外のハードウェア障害発生時には、無傷のモデルレプリカから迅速にリカバリ。
  • Silent Data Corruption (SDC) への対策: 大規模トレーニングではSDCが発生する可能性が高いため、決定論的なリプレイ、アイドルマシンとホットスタンバイでのSDCスキャナーなど、新しい手法を導入してSDCを迅速に検出し、障害のあるハードウェアを削除。

要約すると、Geminiのトレーニングには、大規模なTPUアクセラレータ群、高帯域幅・低遅延ネットワーク、効率的なソフトウェアスタックが活用されています。これらのインフラストラクチャにより、前例のない規模でのトレーニングが可能となり、Geminiモデルの優れた性能を実現しています。

4. Pre-Training Dataset

Gemini論文の4. Pre-Training Datasetでは、Geminiモデルの事前学習に使用されたデータセットについて解説しています。

Geminiの事前学習データセットは、以下の特徴を持っています。

  • マルチモーダル: ウェブドキュメント、書籍、コードに加えて、画像、音声、動画データを含む。
  • 多言語: 多言語テキストデータを含む。

データセット作成における工夫点:

  • SentencePiece Tokenizer: SentencePiece Tokenizerを用いて、トレーニングコーパス全体の大規模サンプルから語彙を推論。これにより、語彙の質が向上し、モデルの性能が向上する。
  • 非ラテン文字の効率的なトークン化: 非ラテン文字のトークン化を効率化することで、モデルの品質と学習・推論速度が向上する。
  • データセットサイズ: 最大規模のモデルの学習に使用されるトークン数は、Hoffmann et al. (2022) のアプローチに従って決定。小規模モデルは、Touvron et al. (2023a) のアプローチと同様に、推論予算に対して性能を向上させるために、より多くのトークンで学習。
  • 品質フィルター: ヒューリスティックルールとモデルベースの分類器を用いて、すべてのデータセットに品質フィルターを適用。
  • 安全性フィルター: ポリシーに基づいて有害なコンテンツを削除するための安全性フィルターを適用。
  • 評価データの除外: 評価の整合性を維持するため、学習に使用されるデータから評価データを除外。
  • データ混合と重み付け: 最終的なデータの混合と重み付けは、小規模モデルでのアブレーションを通じて決定。
  • 段階的学習: 学習中に混合構成を変更し、学習の終わりに向けてドメイン関連データの重みを増加。

論文では、データ品質がモデルの性能に大きな影響を与えることを強調し、事前学習に最適なデータセット分布を見つけることが今後の課題であるとしています。

要約すると、Geminiの事前学習データセットは、マルチモーダル、多言語、高品質、安全性を重視して作成されています。これらのデータセットにより、Geminiモデルは、様々なモダリティと言語を理解し、高精度な推論を行うことができるようになっています。

5. Evaluation

Gemini モデルは、テキスト、画像、音声、ビデオを共同でトレーニングするため、ネイティブにマルチモーダルです。1 つの未解決の問題は、この共同トレーニングによって、単一のドメインに狭く適合されたモデルやアプローチと比較しても、各ドメインで強力な機能を備えたモデルが実現できるかどうかです。これは事実です。Gemini モデルは、テキスト、画像、音声、ビデオのベンチマークの広範囲にわたって、新しい最先端技術を確立しました。

5.1. Text

5.1.1. Academic Benchmarks

Gemini論文の5.1.1. Academic Benchmarksでは、Geminiのテキスト理解能力を評価するため、様々な学術ベンチマークを用いた結果を報告しています。

評価対象:

  • Gemini Pro: 事前学習済みモデルと事後学習済みモデル
  • Gemini Ultra: 事前学習済みモデルと事後学習済みモデル
  • 比較対象: 他の大規模言語モデル (LLM) やGoogleの以前のモデル (PaLM 2)

使用ベンチマーク: 推論、読解、STEM、コーディングといった能力を測る、既存のテキストベースの学術ベンチマークを使用。

主な結果:

  • Gemini Pro: GPT-3.5などの推論に最適化されたモデルよりも優れた性能を発揮し、他の高性能モデルと同等の性能を示す。
  • Gemini Ultra: すべての既存モデルを凌駕する性能を示す。

具体的なベンチマークと結果:

  • MMLU (Massive Multitask Language Understanding): 57の科目に関する多肢選択問題からなる知識と推論能力を測るベンチマーク。Gemini Ultraは90.04%の精度を達成し、人間専門家のレベル (89.8%) を超え、既存のすべてのモデルを上回る。
    • Chain-of-thought promptingとモデルの不確実性を考慮した手法を組み合わせることで、最も高い精度を達成。
  • GSM8K (Grade School Math 8K): 小学レベルの数学問題を解くベンチマーク。Gemini Ultraは、Chain-of-thought promptingと自己整合性 (Wang et al., 2022) を用いることで94.4%の精度を達成し、既存の最高精度 (92%) を更新。
  • MATH: 中学・高校レベルの数学競技問題からなるベンチマーク。Gemini Ultraは、すべての競合モデルを上回る性能を示し、4-shotプロンプトで53.2%の精度を達成。
  • HumanEval: 関数記述からPython実装を生成するコード補完ベンチマーク。命令調整されたGemini Ultraは、74.4%の問題を正しく実装。
  • Natural2Code: ウェブからのリークがないことを保証した、新しいPythonコード生成タスクの評価ベンチマーク。Gemini Ultraは、最高のスコア74.9%を達成。
  • HellaSwag: 常識的な多肢選択問題。データ汚染の可能性があるため、10-shot評価設定でのみ結果を報告。
  • WMT23: 機械翻訳ベンチマーク。Gemini Ultraは、特に英語から他の言語への翻訳で優れた性能を発揮し、他のLLMベースの翻訳手法を上回る。
  • MGSM: GSM8Kを多言語に翻訳した数学ベンチマーク。Gemini Ultraは、8-shot設定で平均79.0%の精度を達成し、PaLM 2-L (74.7%) を上回る。

論文では、データ汚染の可能性やベンチマークの限界について議論し、より堅牢でニュアンスのある標準化された評価ベンチマークの必要性を訴えています。

要約すると、Academic Benchmarksのセクションでは、Geminiが推論、読解、STEM、コーディングといった多様な学術タスクにおいて、既存のモデルを凌駕する性能を示すことを実証しています。特にGemini Ultraは、多くのベンチマークで人間レベルの性能を達成しており、AIの進歩における重要なマイルストーンとなっています。

5.1.2. Trends in Capabilities

Gemini論文の5.1.2. Trends in Capabilitiesでは、異なるサイズのGeminiモデルファミリー全体における能力の傾向を調査しています。

評価方法:

  • 6つの能力分野:
    • Factuality: オープン/クローズドブック検索、質問応答
    • Long-Context: 長文要約、検索、質問応答
    • Math/Science: 数学的問題解決、定理証明、科学試験
    • Reasoning: 算術、科学、常識推論
    • Multilingual: 多言語翻訳、要約、推論
    • Summarization: 要約能力
  • 50以上のベンチマーク: 上記6つの能力分野を評価するため、50以上のベンチマークで構成される包括的な評価を実施。
  • モデルサイズ: Gemini Nano 1、Nano 2、Pro、Ultraの4つのモデルサイズを比較。

主な結果:

  • モデルサイズと性能: すべての能力分野において、モデルサイズが大きくなるにつれて性能が向上する傾向が見られる。
  • Gemini Ultra: 6つの能力分野すべてにおいて、最も優れた性能を示す。
  • Gemini Pro: Ultraよりも効率的でありながら、競争力のある性能を発揮。

図3: 6つの能力分野におけるGeminiモデルファミリーの性能を、Gemini Proの性能で正規化して比較したグラフが示されている。

考察:

  • 推論、数学/科学、要約、長文コンテキスト: モデルサイズが大きくなるにつれて、これらの能力が特に顕著に向上する。
  • Gemini Ultra: 幅広いタスクにおいて最高性能を達成しており、複雑な問題解決や多言語タスクへの対応能力の高さが示唆される。
  • Gemini Pro: 効率性と性能のバランスが取れており、多くの実用的なアプリケーションに適している。

このセクションでは、モデルサイズが大きくなるにつれてGeminiの能力が向上する傾向を示し、Gemini Ultraが最も高性能なモデルであることを実証しています。また、Gemini Proは、効率性と性能のバランスが取れており、幅広いアプリケーションに適していることが示唆されています。

論文では、これらのベンチマーク結果が、現実世界のタスクにおけるモデルの能力を示唆するものであると述べています。例えば、Gemini Ultraの優れた推論能力とSTEM能力は、教育分野における個別学習やインテリジェントな個別指導システムの発展に貢献する可能性があります。

5.1.3. Nano

Gemini論文の5.1.3. Nanoでは、デバイス上での利用に特化した小型モデルである Gemini Nano シリーズについて解説しています。

Gemini Nanoの特徴:

  • オンデバイス展開: スマートフォンやタブレットなどのデバイス上で動作するように設計。
  • 高効率: 限られた計算資源でも動作可能なように、モデルサイズと計算量を削減。
  • 2つのバージョン:
    • Nano-1: 1.8Bパラメータ、低メモリデバイス向け。
    • Nano-2: 3.25Bパラメータ、高メモリデバイス向け。
  • 蒸留: より大きなGeminiモデルから蒸留することで、高性能を維持。
  • 4ビット量子化: 展開時のメモリ使用量を削減するため、4ビット量子化を採用。

Nanoの能力:

  • 要約: テキストの要約を生成。
  • 読解: テキストの内容を理解し、質問に回答。
  • テキスト補完: テキストの続きを予測。
  • 推論: 論理的な推論タスクを解決。
  • STEM: 科学、技術、工学、数学に関する問題を解決。
  • コーディング: コードを生成・理解。
  • マルチモーダル: テキストと画像を組み合わせたタスクを処理。
  • 多言語: 多言語テキストを処理。

評価:

  • 図3: Gemini Proの性能で正規化した、Nanoを含むGeminiモデルファミリーの言語理解・生成性能を、6つの能力分野 (Factuality, Long-Context, Math/Science, Summarization, Reasoning, Multilinguality) に分けて比較。
  • 表3: Nano-1とNano-2の性能を、より大きなGemini Proモデルと比較。

結果:

  • Nanoは、そのサイズにもかかわらず、事実性 (Factuality) タスク、特に検索関連タスクで非常に優れた性能を示す。
  • 推論、STEM、コーディング、マルチモーダル、多言語タスクにおいても、Nanoは著しい性能を発揮する。

考察:

  • Gemini Nanoは、デバイス上での利用に適した高性能な小型モデルである。
  • Nanoの登場により、Geminiの能力がより幅広いプラットフォームやデバイスで利用可能となり、アクセシビリティが向上する。

論文では、Nanoが次世代のオンデバイス体験を支える、要約や読解などのタスクに優れた、クラス最高の小型言語モデルであると結論付けています。

5.1.4. Multilinguality

Gemini モデルの多言語機能は、多言語理解、言語間の一般化、および複数言語でのテキスト生成を必要とするさまざまなタスク セットを使用して評価されます。これらのタスクには、機械翻訳ベンチマーク (高、中、低リソース翻訳の場合は WMT 23、低および非常に低リソース言語の場合は Flores、NTREX)、要約ベンチマーク (XLSum、Wikilingua)、および共通ベンチマークの翻訳バージョン (MGSM: 11 の言語に専門的に翻訳) が含まれます。

5.1.4.1 Machine Translation

Gemini論文の5.1.4.1 Machine Translationでは、Geminiの多言語能力、特に機械翻訳における性能について詳しく評価しています。

評価方法:

  • WMT 23 翻訳ベンチマーク: 機械翻訳分野で広く利用されているベンチマーク。高リソース、中リソース、低リソース言語を含む様々な言語ペアの翻訳タスクを網羅。
  • Few-shot設定: 限られた数の例を用いてモデルを評価。
  • 評価指標: BLEURT (Bilingual Evaluation Understudy) スコアを使用。BLEURTは、機械翻訳の品質を評価するための指標で、高いほど良い。
  • 比較対象: GPT-4、PaLM 2-L

主な結果:

  • Gemini Ultra (および他のGeminiモデル) は、英語から他の言語への翻訳において、特に優れた性能を示した。
  • WMT 23の英語以外の言語からの翻訳タスクでは、Gemini Ultraは最高のBLEURTスコア (74.8) を達成し、GPT-4 (73.6) やPaLM 2 (72.2) を上回った。
  • WMT 23のすべての言語ペアと方向の平均BLEURTスコアでも、Gemini Ultra (74.4) はGPT-4 (73.8) とPaLM 2-L (72.7) を上回った。

表4: 異なるGeminiモデルのWMT 23翻訳ベンチマークにおける性能をまとめた表が示されている。

低リソース言語への対応:

  • Flores-200、NTREX、内部ベンチマーク: これらのデータセットからサンプリングされた、非常にリソースの少ない言語 (タマジクト語、カヌリ語、北ンデベレ語、ケチュア語) についても評価。
  • 結果: 英語との間で翻訳するタスクにおいて、Gemini Ultraは平均chrFスコア27.0を達成し、PaLM 2-L (25.3) を上回った。

考察:

  • Geminiモデルは、高リソース言語だけでなく、中リソース言語や低リソース言語においても、高い翻訳品質を実現している。
  • 特に、英語から他の言語への翻訳において優れた性能を示しており、多言語コミュニケーションを促進する可能性がある。

このセクションでは、Geminiが幅広い言語ペアにおいて高精度な機械翻訳を実現できることを示し、その多言語能力の高さを実証しています。

5.1.4.2 Multilingual Math and Summarization

Gemini論文の5.1.4.2 Multilingual Math and Summarizationでは、機械翻訳だけでなく、多言語の数学問題解決と要約タスクにおけるGeminiモデルの性能を評価しています。

評価方法:

  • 数学問題解決:
    • MGSMベンチマーク: GSM8K (小学レベルの数学問題解決ベンチマーク) を多言語に翻訳したデータセット。
    • 8-shot設定: 8つの例を用いてモデルを評価。
    • 評価指標: 精度 (accuracy)
    • 比較対象: PaLM 2-L
  • 要約:
    • XLSumベンチマーク: 多言語ニュース記事要約データセット。
    • WikiLinguaベンチマーク: 多言語Wikipedia記事要約データセット。
    • 評価指標:
      • XLSum: ROUGE-Lスコア (高いほど良い)
      • WikiLingua: BLEURTスコア (高いほど良い)
    • 比較対象: PaLM 2-L

主な結果:

  • 数学問題解決 (MGSM): Gemini Ultraは、すべての言語で平均79.0%の精度を達成し、PaLM 2-L (74.7%) を上回った。
  • 要約 (XLSum): Gemini Ultraは、平均ROUGE-Lスコア17.6を達成し、PaLM 2-L (15.4) を上回った。
  • 要約 (WikiLingua): Gemini Ultra (5-shot) は、PaLM 2-L (3-shot) にわずかに及ばなかった。

表5: 多言語数学問題解決と要約タスクにおけるGeminiモデルとPaLM 2-Lの性能をまとめた表が示されている。

考察:

  • Geminiモデルは、多言語の数学問題解決と要約タスクにおいても、高い性能を発揮する。
  • 特に、MGSMベンチマークの結果は、Geminiが言語の違いを超えて数学的な概念を理解できることを示唆している。
  • XLSumベンチマークの結果は、Geminiが多言語のテキストを要約する能力が高いことを示している。

このセクションでは、Geminiが機械翻訳だけでなく、多言語の数学問題解決と要約タスクにおいても優れた性能を発揮することを示し、その幅広い言語理解能力を実証しています。これらの結果は、Geminiが低リソース言語を含む様々な言語で、複雑なタスクを処理できる可能性を示唆しています。

5.1.5. Long Context

Gemini論文の5.1.5. Long Contextでは、Geminiモデルが長文コンテキストをどのように効果的に利用できるかを検証しています。Geminiは32,768トークンのシーケンス長で学習されており、このセクションでは、その長文コンテキストを最大限に活用できることを示す実験結果が報告されています。

評価方法:

  1. 合成検索テスト:

    • コンテキストの先頭にキーと値のペアを配置し、その後に長いフィラーテキストを追加。
    • 特定のキーに関連付けられた値を問い合わせるタスクを実行。
    • Ultraモデルは、完全なコンテキスト長で問い合わせた場合、98%の精度で正しい値を取得できることを確認。
  2. 負の対数尤度 (NLL) の分析:

    • 長文ドキュメントの保持データセットを用いて、トークンインデックスに対するNLLをプロット (図4)。
    • NLLは、シーケンスの位置が進むにつれて減少し、完全な32Kコンテキスト長まで有効活用されていることがわかる。

図4: 保持された長文ドキュメントセットにおける、トークンインデックスの関数としての負の対数尤度 (NLL) を示すグラフ。

考察:

  • Geminiは、長文コンテキストを効果的に利用し、文脈全体から情報を取得できる。
  • この能力は、ドキュメントや動画理解など、より長いシーケンスの情報を扱うタスクに役立つ。

このセクションでは、Geminiが長文コンテキストを効果的に利用できることを示す2つの実験結果を報告しています。これらの結果は、Geminiが従来のモデルよりも長いテキストシーケンスを処理できることを示唆しており、ドキュメント要約、質問応答、物語生成など、様々な自然言語処理タスクにおいて、より高度な性能を発揮できる可能性を示しています。

具体的には、以下のような応用が期待されます。

  • ドキュメント検索: 長いドキュメント全体から関連情報を検索。
  • 動画理解: 動画の長いシーケンスから情報を抽出し、質問に回答。
  • 物語生成: より長く、より複雑な物語を生成。

Geminiの長文コンテキスト処理能力は、自然言語処理における新たな可能性を切り開く重要な要素と言えるでしょう。

5.1.6. Factuality

Gemini論文の5.1.6. Factualityでは、Gemini APIモデルの事実性、つまり、モデルが生成する情報がどれだけ事実に基づいているかを評価しています。これは、モデルのトレーニングと展開において重要な要素です。

評価対象:

  • Gemini APIモデル: 会話型と非会話型の両方のユースケースをサポートするように設計されたモデル。

評価項目:

  1. Closed-Book Factuality (クローズドブック事実性):
    • ソースが与えられていない事実を求めるプロンプトに対して、モデルが誤った情報を生成しないかを評価。
    • 例: 「インドの首相は誰ですか?」、「再生可能エネルギーの採用を支持する500語のスピーチを書いてください。」
  2. Attribution (帰属):
    • 特定のコンテキストに基づいて応答を生成するように指示された場合、モデルがそのコンテキストに対してどれだけ忠実であるかを評価。
    • 例: ユーザーが提供したソースの要約、質問と提供されたスニペットに基づく詳細な引用の生成、長文ソースからの質問応答、特定の出力形式へのソースの変換。
  3. Hedging (ヘッジング):
    • 回答不可能な入力に対して、モデルが誤った情報を生成するのを避けるために、ヘッジを行うかを評価。
    • 例: 前提が誤った質問、オープンブックQAで回答がコンテキストから導き出せない場合。

評価方法:

  • Factuality: 人間の注釈者が各応答を手動でファクトチェックし、事実と異なる応答の割合を報告。
  • Attribution: 人間の注釈者が各応答を手動でチェックし、プロンプト内のソースへの帰属をチェック。AIS (Attribution Integrity Score) を指標として使用。
  • Hedging: 自動評価設定を使用して、モデルが正確にヘッジを行うかどうかを測定。

結果:

  • 表6: 事実性、帰属、ヘッジングに関する評価結果をまとめた表。
  • 事実性: 事実性に焦点を当てた適応を行わないバージョンと比較して、Gemini API Proの誤り率は半分に減少。
  • 帰属: 帰属の精度は50%向上。
  • ヘッジング: ヘッジングタスクにおいて、モデルは70%の精度でヘッジを行うことに成功 (適応なしのバージョンは0%)。

考察:

  • 事後トレーニングは、Gemini APIモデルの事実性、帰属、ヘッジングを大幅に向上させる。
  • 高品質な実証データとフィードバックデータは、モデルの事実性を向上させるために重要である。

このセクションでは、Gemini APIモデルの事実性を評価し、事後トレーニングが事実性、帰属、ヘッジングを向上させることを示しています。これは、信頼性の高い情報提供を行うAIシステムを開発するために重要な知見です。

5.1.7. Complex Reasoning Systems

Gemini論文の5.1.7. Complex Reasoning Systemsでは、Geminiモデルを検索やツール使用といった技術と組み合わせることで、より複雑な多段階問題を解決できる強力な推論システムを構築できることを示しています。

具体例として、AlphaCode 2というシステムが紹介されています。

  • AlphaCode 2: 競技プログラミング問題を解く、Geminiモデルをベースにした新しいエージェント。
  • Gemini Proの活用: AlphaCode 2は、競技プログラミングデータでファインチューニングされたGemini Proの特殊バージョンを使用。
  • 動作:
    1. 大規模なプログラム空間の探索: Gemini Proを用いて、可能なプログラムの大規模な空間を探索。
    2. フィルタリング、クラスタリング、再ランク付け: 探索されたプログラム候補に対して、フィルタリング、クラスタリング、再ランク付けを行うことで、最も有望な候補を抽出。
  • Gemini Proの役割:
    1. コーディングモデル: プログラムの候補解を生成。
    2. 報酬モデル: 生成された候補解の中から、最も有望なものを認識・抽出するために使用。

AlphaCode 2の評価:

  • Codeforces: AlphaCodeと同じプラットフォームで評価。
  • 問題: Division 1と2の12のコンテストから合計77の問題を選択。
  • 結果: AlphaCode 2は、これらの競技問題の43%を解決。これは、以前の記録を樹立したAlphaCodeシステム (25%解決) よりも1.7倍の改善。
  • ランキング: AlphaCode 2は、Codeforcesの参加者の上位15%に位置する性能を示す。

考察:

  • 強力な事前学習済みモデルと検索・推論メカニズムの組み合わせは、より汎用的なエージェント開発に向けた有望な方向性を示している。
  • AlphaCode 2は、Geminiモデルの推論能力を活用することで、複雑な競技プログラミング問題を高い精度で解決できることを実証している。

このセクションでは、Geminiモデルを他の技術と組み合わせることで、複雑な問題解決能力を持つAIシステムを構築できることを示しています。これは、AIがより広範なタスクを自動化し、人間の能力を拡張する可能性を示唆する重要な成果です。

さらに、論文では、強力な事前学習済みモデルに加えて、様々なモダリティを深く理解することが、より汎用的なエージェント開発には不可欠であると述べています。

5.2. Multimodal

Gemini モデルは、ネイティブにマルチモーダルです。これらのモデルは、図 5 および 14 の例に示すように、モダリティ間の機能 (表、グラフ、図から情報と空間レイアウトを抽出するなど) と言語モデルの強力な推論機能 (数学とコーディングにおける最先端のパフォーマンスなど) をシームレスに組み合わせる独自の機能を備えています。また、入力のきめ細かい詳細を識別し、空間と時間にわたってコンテキストを集約し、これらの機能を時間的に関連する一連のビデオ フレームやオーディオ入力に適用する点で、モデルは優れたパフォーマンスを発揮します。
以下のセクションでは、さまざまなモダリティ (画像、ビデオ、オーディオ) にわたるモデルの詳細な評価と、モデルの画像生成機能およびさまざまなモダリティ間での情報を組み合わせる機能の定性的な例を示します。

5.2.1. Image Understanding

Gemini論文の5.2.1. Image Understandingでは、Geminiの画像理解能力を評価しています。Geminiは、テキストだけでなく画像も理解できるマルチモーダルモデルであり、このセクションでは、様々な画像理解タスクにおけるGemini APIモデルの性能を検証しています。

評価方法:

  • 4つの能力分野:
    • 高レベル物体認識: 画像のキャプション生成や質問応答 (例: VQAv2)。
    • 詳細な文字起こし: 画像内の細かい文字を読み取る (例: TextVQA、DocVQA)。
    • チャート理解: チャートの空間的なレイアウトを理解 (例: ChartQA、InfographicVQA)。
    • マルチモーダル推論: 画像とテキストを組み合わせて推論 (例: AI2D、MathVista、MMMU)。
  • ゼロショットQA評価: 特定のベンチマークに合わせて短い回答を提供するように指示。
  • 外部OCRツール不使用: モデル自身の画像理解能力を評価するため、外部OCRツールは使用しない。
  • サンプリング方法: Greedyサンプリングを使用。

結果:

  • 表7: 様々な画像理解ベンチマークにおけるGemini Ultra、Gemini Pro、Gemini Nano 2、Gemini Nano 1、GPT-4V、および従来の最先端 (SOTA) モデルの性能を比較。
  • Gemini Ultra: ゼロショット評価において、特にOCR関連の画像理解タスク (自然画像、テキスト、ドキュメント、図) で、他のモデルを大幅に上回る性能を示す。
  • MMMU (Multimodal Multidiscipline Understanding): 大学レベルの知識を必要とする6つの分野の画像に関する質問からなるベンチマーク。Gemini Ultraは、このベンチマークで最高のスコアを達成し、従来のSOTAを5ポイント以上上回る。また、6つの分野のうち5つで最高の結果を達成。
  • 他のベンチマーク: MathVista (+3.1%) やInfographicVQA (+5.2%) などの学術ベンチマークにおいても、Gemini UltraはSOTAを大幅に更新。

考察:

  • Gemini Ultraは、幅広い画像理解タスクにおいて、ゼロショット評価で優れた性能を発揮する。
  • 外部OCRエンジンを使用せずに、画像内のテキストを正確に認識できる。
  • マルチモーダル推論能力が高く、画像とテキストを組み合わせて複雑な問題を解決できる。

図5: Gemini Ultraのマルチモーダル推論能力を示す例。matplotlibのコードを生成して、ユーザーが提供したサブプロットを並べ替えるタスク。

Figure 5は、Gemini Ultraのマルチモーダル推論能力を示す例として、matplotlibのコードを生成してサブプロットを並べ替えるタスクを示しています。

タスクの内容:

  • ユーザーは、4つのサブプロット (正弦波、正接関数、指数関数、3次元放物線) を含む図を提供。
  • 各サブプロットが何を表しているか、現在の位置を記述し、新しい位置を指定する指示を与える。
  • 例: 「3次元放物線のサブプロットを左上に配置し、正接関数を右下に配置します。残りの2つのサブプロットは、1つは元の位置に残り、もう1つは最後の空いている場所に配置します。元のカラースキームで並べ替えたバージョンの完全なコードを書いてください。」

Gemini Ultraの出力:

  • Figure 5の右側の青いボックスに示されているように、Gemini Ultraは、指示に従ってサブプロットを並べ替えるmatplotlibのコードを生成することに成功。
  • 生成されたコードを実行した結果が、左下の図に示されている。

この例が示すGemini Ultraの能力:

  1. 関数の認識: 各サブプロットに描かれている関数を正しく認識。
  2. 逆グラフィックス: サブプロットを生成したコードを推測。
  3. 指示の理解: サブプロットを希望の位置に配置する指示を理解。
  4. 抽象的な推論: 指数関数のプロットは元の位置に残さなければならないこと (正弦波のプロットが3次元プロットのために移動する必要があるため) を推測。

Figure 5は、Gemini Ultraが画像とテキストを統合的に理解し、複雑な推論を必要とするタスクを解決できることを示す好例です。 この能力は、データの可視化、コード生成、教育など、様々な分野で応用できる可能性があります。

さらに、この例は、Geminiが単なる画像認識モデルではなく、画像の内容を理解し、それに基づいてコードを生成するなど、より高度なタスクを実行できることを示しています。 これは、AIが人間の認知能力に近づいていることを示唆する重要な成果と言えるでしょう。

表8: MMMUベンチマークにおけるGemini Ultraの分野別性能。

表9: Crossmodal-3600 (XM-3600) ベンチマークにおける、様々な言語での画像キャプション生成性能。Geminiモデルは、既存の最良モデルであるGoogle PaLI-Xを大幅に上回る。

このセクションでは、Geminiが高度な画像理解能力を持つことを示す様々な実験結果を報告しています。これらの結果は、Geminiが画像とテキストを統合的に理解し、複雑な推論タスクを解決できることを示唆しており、画像検索、画像キャプション生成、視覚的な質問応答など、様々な応用分野での活用が期待されます。

5.2.2. Video Understanding

Gemini論文の5.2.2. Video Understandingでは、Geminiの動画理解能力を評価しています。動画理解は、汎用的なAIエージェントの実現に向けて重要なステップであり、このセクションでは、学習データから除外された、確立されたベンチマークを用いてGeminiの動画理解能力を測定しています。

評価方法:

  • 動画理解タスク:
    • 時間的に関連するフレームシーケンスを理解できるかを評価。
    • 各動画タスクでは、各ビデオクリップから等間隔にサンプリングされた16フレームをGeminiモデルに入力。
  • データセット:
    • 学習データから除外された、いくつかの確立されたベンチマークを使用。
    • YouTubeビデオデータセット (NextQAとPerceptionテストを除く) では、2023年11月の時点で公開されていた動画のみを評価対象とする。
  • 評価指標:
    • 動画キャプションタスク: CIDER (CIDErスコア)
    • 動画質問応答タスク:
      • NextQA: WUPS (Word Understanding and Paraphrasing Score)
      • Perceptionテスト、ActivityNet-QA: Top-1精度

結果:

  • 表10: 選択された学術ベンチマークにおける、Few-shot動画キャプションタスクとゼロショット動画質問応答タスクでのGemini UltraとGemini Proの性能を、従来のSOTAモデルと比較。
  • Gemini Ultra: 様々なFew-shot動画キャプションタスクとゼロショット動画質問応答タスクにおいて、SOTAを達成。
  • 時間的推論能力: 複数のフレームにわたる強力な時間的推論能力を示す。

図23 (Appendix): サッカー選手のボールストライクのメカニズムを理解し、選手のプレー改善について推論する例を視覚的に示す。

考察:

  • Gemini Ultraは、動画の内容を理解し、時間的な関係性を推論できることを示している。
  • これは、動画キャプション生成、動画要約、動画質問応答など、様々な動画理解タスクへの応用可能性を示唆する。

このセクションでは、Geminiが動画理解においても優れた性能を発揮することを示す実験結果を報告しています。これらの結果は、Geminiが静止画だけでなく、動画のような時間的な情報を含むデータも理解できることを示唆しており、より複雑な現実世界の状況を理解し、それに対応できるAIシステムの開発に貢献する可能性があります。

5.2.3. Image Generation

Gemini論文の5.2.3. Image Generationでは、Geminiの画像生成能力について解説しています。Geminiは、中間的な自然言語記述に頼ることなく、直接画像を出力できる能力を持っています。これは、モデルの画像表現能力を制限することなく、画像とテキストを組み合わせたプロンプトを用いて画像を生成できることを意味します。

特徴:

  • ネイティブな画像生成: 中間的な自然言語記述を必要とせず、直接画像を出力。
  • 柔軟なプロンプト: 画像とテキストを組み合わせたプロンプトを使用して、Few-shot設定で画像を生成可能。

例:

  • 図6: 1-shot設定での画像生成の例。
    • ユーザーは、2色 (青と黄) と、それらの色を使って毛糸で作るかわいい青い猫または青い犬の画像提案を提供。
    • モデルは、新しい2色 (ピンクと緑) を与えられ、それらの色を使って何を作成できるかについての2つのアイデアを求められる。
    • モデルは、ピンクの種が入ったかわいい緑のアボカド、またはピンクの耳が付いた緑のウサギを作るという提案とともに、画像とテキストのシーケンスを生成することに成功。

図12 (Appendix): ブログ投稿やウェブサイト用の画像とテキストの提案をデザインする例。

考察:

  • Geminiは、画像とテキストを組み合わせたプロンプトから、複数の画像を生成できる。
  • これは、創造的なコンテンツ生成、ストーリーボード作成、デザイン支援など、様々な分野での応用可能性を示唆する。

このセクションでは、Geminiが従来の画像生成モデルとは異なる、より柔軟で表現力豊かな画像生成能力を持つことを示しています。これは、AIが人間の創造性を支援し、新たな表現方法を生み出す可能性を示唆する重要な成果と言えるでしょう。

Geminiの画像生成能力は、まだ初期段階にありますが、今後の発展が期待される分野です。より複雑な画像生成、高解像度画像生成、ユーザーの意図をより正確に反映した画像生成などが実現すれば、様々な分野で大きなインパクトを与える可能性があります。

5.2.4. Audio Understanding

Gemini論文の5.2.4. Audio Understandingでは、Geminiの音声理解能力を評価しています。ここでは、Gemini Nano-1とGemini Proモデルを用いて、様々な公開ベンチマークでの性能を測定し、Universal Speech Model (USM) やWhisperといった既存の音声認識モデルと比較しています。

評価方法:

  • ベンチマーク:
    • 自動音声認識 (ASR): FLEURS, VoxPopuli, 多言語Librispeech
    • 音声翻訳 (AST): CoVoST 2 (様々な言語から英語への翻訳)
    • 内部ベンチマーク: YouTubeテストセット
  • 評価指標:
    • ASR: Word Error Rate (WER, 低いほど良い)
    • AST: BLEUスコア (高いほど良い)
    • FLEURS: 62言語 (学習データと重複する言語) でWERを測定。
    • 4つのセグメント化言語 (中国語、日本語、韓国語、タイ語): Whisperと同様に、WERの代わりにCharacter Error Rate (CER) を報告。

結果:

  • 表11: 選択されたベンチマークにおけるASRとASTの評価結果。
  • Gemini Pro: 英語と多言語の両方のテストセットにおいて、USMとWhisperの両方を大幅に上回る性能を示す。
    • FLEURSでは、USMとWhisperに比べて大きな改善が見られる。これは、Gemini ProがFLEURSの学習データセットで学習されているため。ただし、FLEURSデータセットなしで学習したモデルでも、WERは15.8となり、Whisperを上回る。
  • Gemini Nano-1: FLEURSを除くすべてのデータセットで、USMとWhisperを上回る性能を示す。
  • 表12: USMとGemini Proのエラー分析。Gemini Proは、特に珍しい単語や固有名詞において、より理解しやすい応答を生成する傾向がある。

考察:

  • Gemini Proは、音声理解において、既存の最先端モデルであるUSMとWhisperを上回る性能を示す。
  • Gemini Nano-1も、その小さなモデルサイズにもかかわらず、優れた音声理解能力を発揮する。
  • Geminiは、音声認識と音声翻訳の両方のタスクにおいて、高い精度を実現できる。

このセクションでは、Geminiが音声理解においても優れた性能を発揮することを示す実験結果を報告しています。これらの結果は、Geminiが音声データも効果的に処理できることを示唆しており、音声アシスタント、音声検索、音声翻訳など、様々な音声関連アプリケーションでの活用が期待されます。

論文では、Gemini Ultraの音声評価はまだ行われていないものの、モデルサイズが大きくなることで、さらなる性能向上が期待されると述べています。

5.2.5. Modality Combination

Gemini論文の5.2.5. Modality Combinationでは、複数のモダリティを組み合わせた理解能力について検証しています。多くのマルチモーダルモデルは、テキストと画像の組み合わせに焦点を当てていますが、Geminiは、音声と画像をネイティブに処理できる能力も備えています。

例:

  • オムレツ作りのシナリオ:
    • モデルは、音声と画像のシーケンスでプロンプトされます。
    • ユーザーは、オムレツ作りの手順を写真で見せながら、音声で次のステップについて質問します。
  • 表13: モデルとのターン制のインタラクションを示す表。
    • モデルは、画像内の細かいディテールを処理し、オムレツが完全に調理されたかどうかを判断するなど、音声と画像の両方を理解し、適切なテキスト応答を生成しています。

ウェブサイト上のデモ: 実際に音声と画像を組み合わせたインタラクションを試せるデモが公開されています。

考察:

  • Geminiは、テキストと単一のモダリティ (通常は画像) の組み合わせだけでなく、音声と画像のシーケンスもネイティブに処理できる。
  • これは、料理の手順理解、製品の組み立て方説明、リアルタイムの状況説明など、より複雑な現実世界のタスクをAIが理解し、支援できる可能性を示唆する。

このセクションでは、Geminiが音声と画像の両方を理解し、それらを組み合わせて推論できることを示す例を挙げています。これは、Geminiが複数のモダリティを統合的に理解できることを示唆しており、より人間に近い形で情報を処理できるAIシステムの開発に貢献する可能性があります。

Geminiのマルチモーダル理解能力は、まだ発展途上ですが、今後の研究によって、さらに複雑なモダリティの組み合わせ (例: 音声、画像、テキスト、センサーデータ) を理解できるようになることが期待されます。

6. Post-Training Models

大規模な事前トレーニングの後、事後トレーニングを適用します。事後トレーニングでは、事前トレーニング済みモデルに基づいてトレーニングを行い、モデルの習熟度を拡張してさまざまな機能を有効にします。具体的には、全体的な品質の向上、コーディングや多言語などのターゲット機能の強化、整合性と安全性の基準の遵守の確保を目指します。このセクションでは、事後トレーニングへのアプローチについて説明し、Gemini アプリと Gemini API のモデル バリアントの共通点と相違点に焦点を当てます。

6.1. Gemini Apps: Gemini and Gemini Advanced

Gemini と Gemini Advanced は、Google の AI モデル ファミリーに直接アクセスできます。このファミリーは、コアとなるトレーニング済みの Gemini Apps モデルとその周囲のシステムで構成されています。これらのモデルは、Gemini の事前トレーニング済みモデルに特殊なトレーニング後を適用することで作成されます。現在、Gemini では Pro 1.0 へのアクセスが提供され、Gemini Advanced では Ultra 1.0 へのアクセスが提供されます。コア モデル以外に、システムはモデルが外部ツール (Google フライト、マップ、Google Workspace など) とやり取りする方法や、応答 (フィルタリング、ランキング、ストリーミング) を生成する方法を決定します。会話型 AI には、次のようないくつかの課題があります。複数ターンのやり取りでユーザーのリクエストを理解する方法。応答が安全で、事実に基づいており、役立つことをどのように確認するか。モデルの外部ツールを使用してユーザーがタスクを達成できるようにする方法。次のセクションでは、これらの課題への取り組み方について説明します。

6.2. Gemini APIs: Google AI Studio and Cloud Vertex AI

開発者向けの Gemini API モデルは、会話型と非会話型の両方のユースケースをサポートするように設計されています。これらのモデルは、使いやすい API を通じて Google AI Studio と Cloud Vertex AI から入手できます。Google AI Studio は、API キーを使用してアプリをすばやくプロトタイプ化してリリースできる、無料のウェブベースの開発者ツールです。Vertex AI は、開発者がさまざまなツール、完全に管理されたインフラストラクチャ、組み込みのエンタープライズ セキュリティとプライバシー設定を備えた Gemini API モデルを活用できるようにする包括的な AI プラットフォームです。Gemini API を使用すると、Gemini API モデルをあらゆる本番環境の製品やワークフローに簡単に統合できるため、開発者はさまざまなモダリティにわたって推論できるアプリケーションを構築できます。

6.3. Post-Training Methods & Data

Gemini論文の6.3. Post-Training Methods & Dataでは、事前学習後のGeminiモデルに対して行われる事後学習のアプローチとデータについて解説しています。事後学習は、モデルの能力を拡張し、特定のタスクに適応させるために重要です。

事後学習の目的:

  • 全体的な品質向上
  • コーディングや多言語対応など、特定の能力強化
  • アライメントと安全基準の確保

事後学習の段階:

  1. プロンプトデータ収集:

    • 目的: 現実世界のユースケースを反映した多様なプロンプトを収集。
    • データソース: ベンダー作成データ、サードパーティライセンスソース、合成アプローチ。
    • 重要性: 収集されたプロンプトは、実証データとフィードバックデータの収集、強化学習に利用されるため、多様なユースケースをカバーすることが重要。
  2. 実証データを用いた教師ありファインチューニング (SFT):

    • 目的: 特定のプロンプトに対して、モデルが望ましいターゲット応答を出力するように学習。
    • データ: 人間の専門家によって作成されたターゲット応答、またはモデルによって生成され、人間によって修正・レビューされた応答。
    • データ多様性: 能力、ユースケース、意味クラスター全体でデータの多様性を確保するために、データ分析ツールとヒューリスティックを使用。
  3. フィードバックデータを用いた報酬モデル (RM) の学習:

    • 目的: 人間の好みに沿った報酬を出力する報酬モデルを学習。
    • データ: 人間の評価者が、候補応答に対する相対的な好みや、特定のプロンプトに対する個々の応答に関するフィードバックを提供。
    • フィードバックの種類: 創造性、安全性、事実性、その他の能力、ターゲット基準。
    • 重要性: プロンプトの選択と候補応答の生成方法によって、結果として得られるフィードバックデータの有用性が大きく変わる。
  4. 人間のフィードバックからの強化学習 (RLHF):

    • 目的: 報酬モデルを用いて、モデルの出力を人間の好みにさらに近づける。
    • プロセス: RLHFは、RLがRMの限界を押し広げ、RMは評価とデータ収集を通じて継続的に改善されるという反復的なプロセス。
    • 結果: RLとRMの両方が徐々に改善される。

図7: 事後学習のプロセスを視覚的に示した図。

評価:

  • 人間の評価: モデル出力に対する人間の好みを評価することは、性能を測定するための重要な指標。
  • 評価方法: 同じプロンプトに対する2つのモデルの応答を人間が判断するブラインド評価、特定の能力に対する単一回答評価、オンラインテスト。
  • 自動評価: 開発をガイドし、オンラインパフォーマンスを継続的に監視するために、人間の好みを忠実に模倣する自動評価モデルを構築。

Gemini AppsモデルとGemini APIモデル:

  • Gemini Appsモデル: 会話型AIサービスであるGeminiとGemini Advancedで使用。
  • Gemini APIモデル: 会話型と非会話型の両方のユースケースをサポートし、Google AI StudioとCloud Vertex AIを通じて利用可能。

事後学習は、Geminiモデルの性能と安全性を向上させるために不可欠なプロセスです。Googleは、高品質なデータと高度な学習技術を用いることで、ユーザーにとってより有用で安全なAIシステムの開発を目指しています。

6.4. Evaluation

モデル出力に対する人間の好みの評価は、パフォーマンスを測定するための重要なシグナルとなります。当社の開発プロセスの一環として、対象機能全体にわたって人間による評価を広範囲に実施しています。人間による評価は、人間の評価者が同じプロンプトに対する 2 つのモデルの応答を判断する並列ブラインド評価、特定の機能に対する単一応答評価、およびオンライン テストとして実施されます。さらに、開発を導き、オンライン パフォーマンスを継続的に監視するために、人間の好みを忠実に模倣する自動評価用のモデルを構築しています。

6.5. Model Capabilities

上記で概説した一般的なポストトレーニングに加えて、一連の主要な機能を改善するための手法を適用します。これらの機能は、現在のユーザーのニーズに触発されたさまざまなユースケースと、研究に触発された将来のアプリケーションをカバーしています。以下では、前のセクションで詳しく説明していない機能の例を概説します。ポストトレーニングのレシピは、創造性、事実性、安全性など、複数の目的のバランスをとるように慎重に設計されています (Bai et al.、2022b; Thoppilan et al.、2022)。私たちは安全性と整合性に特に重点を置いているため、これについてはさらに別の専用セクションで説明します。

6.5.1. Instruction Following

Gemini論文の6.5.1. Instruction Followingでは、Gemini AppsとGemini APIモデルの指示追従能力 (Instruction Following, IF) を向上させるための取り組みについて解説しています。指示追従能力とは、ユーザーの指示を正確に理解し、それに応じた出力を生成する能力のことです。

指示追従能力の重要性:

  • LLMがより洗練され、複雑なユーザー指示に対応するにつれて、指示追従能力はますます重要になる。
  • ユーザー指示は、粒度、具体性、要件 (コンテンツ、形式、長さなど) が様々であり、曖昧、任意、あるいは満たすことが不可能または望ましくない場合もある。

Geminiの指示追従能力向上のための取り組み:

  • 多様な指示追従カテゴリのデータ収集: 単語数などプログラムで検証可能な指示については、プロンプトと応答の編集によって合成データを生成し、指示が確実に満たされるようにする。
  • 複雑なプロンプトの評価:
    • 複数の指示を含む複雑なプロンプトに対する性能を、各指示への追従度を評価する詳細な評価方法を用いて調査。
    • 人間の評価者は、プロンプトと応答のペア、およびプロンプトに含まれる個々の指示のリストを提示される。
    • 各指示が応答によって追従されているかどうかを判断する。
  • 表14: 様々な複雑さの指示を含む内部データセットを用いた、複雑なプロンプトに対する指示追従能力の評価結果。
    • 評価指標:
      • 指示ごとの精度: 評価セット内の指示のうち、追従された指示の割合。
      • 完全応答精度: 評価セット内のプロンプトのうち、すべての指示が追従されたプロンプトの割合。
    • 結果:
      • Gemini Advanced (Ultra使用) は、平均指示精度約90%を達成し、Gemini (Pro使用) および事後学習済みPaLM 2モデルよりも大幅に改善。
      • 追従されない指示は、応答全体にわたって均等に分布していることが判明。
      • Gemini Advancedの完全応答精度は約54%と、指示ごとの精度よりも低い。これは、モデルがすべての指示を完全に満たす余地があることを示唆。

考察:

  • Gemini Advancedは、複雑なプロンプト内の個々の指示に高い精度で追従できる。
  • しかし、すべての指示を完全に満たすためには、さらなる改善が必要である。

このセクションでは、Geminiの指示追従能力を向上させるための取り組みと、複雑なプロンプトに対する評価結果を示しています。これらの結果は、Geminiがユーザーの指示を理解し、それに応じた出力を生成する能力が高いことを示唆しており、より複雑なタスクを処理できるAIシステムの開発に貢献する可能性があります。

6.5.2. Tool Use

Gemini論文の6.5.2. Tool Useでは、Gemini AppsとGemini APIモデルがツールを使用する能力について解説しています。ツール使用能力は、LLMの能力を内部知識を超えて拡張し、より複雑なタスクを処理することを可能にする重要な要素です。

ツール使用の考え方:

  • コード生成問題として扱う: Geminiは、ツール使用をコード生成問題として扱い、既存の強力なコーディング能力を活用。
  • ツール呼び出しの表現: 各ツール呼び出しは、ツール呼び出しが実行されるコードブロックとして表現される。
  • 複数ツールの組み合わせ: 各コードブロック内で複数のツールを組み合わせることが可能。
  • ツール実行結果の観察: ツール実行結果を観察し、それに基づいて動作を変更することが可能。

推論時の動作:

  • 図8: ユーザーのプロンプトに対する応答を生成するためのループを示した図。
    • LLMからのサンプリングとツールコードの実行が連携して動作し、最終的な応答を生成。

Gemini Appsモデル:

  • Gemini Extensions: Google Workspace、Google Maps、YouTube、Google Flights、Google Hotelsなど、様々なツールをGemini Extensionsを通じて利用可能。
  • ツール使用能力の利点: 旅行計画や動画検索などのタスクにおいて、ツールを使用するモデルは、ツールを使用しないモデルよりも78%の確率で好まれる (同点除く)。

Gemini APIモデル:

  • ファインチューニングによるツール使用能力の学習: Gemini APIモデルは、ファインチューニングによってツール使用の動作を効果的に学習できる。
  • プログラミングと検索のツールとしての利用: プログラミングと検索をツールとして使用することで、様々な学術ベンチマークの性能が向上。
  • 表15: 初期バージョンのGemini API Proからファインチューニングされたツール使用モデルと、ツールを使用しない同等のモデルの性能比較。
    • ツール使用モデルは、数学的推論、事実性と知識検索、リアルタイムQAのタスクにおいて、ツールを使用しないモデルよりも優れた性能を示す。

考察:

  • ツール使用能力は、LLMの能力を大幅に拡張し、より複雑で実用的なタスクを処理することを可能にする。
  • Geminiは、ツール使用をコード生成問題として扱うことで、既存のコーディング能力を活用し、効果的にツールを使用できる。

このセクションでは、Geminiのツール使用能力とその利点について解説しています。ツール使用は、LLMが現実世界の問題を解決するために不可欠な能力であり、Geminiはこの能力においても優れた性能を発揮することを示しています。

6.5.3. Multilinguality

Gemini論文の6.5.3. Multilingualityでは、Geminiが多言語を効果的にサポートするための取り組みについて解説しています。世界中のユーザーがGeminiを利用できるように、多言語対応は非常に重要です。

Gemini Appsモデル:

  • 課題: 英語から40以上の言語にスケールアップするには、データ品質の確保が課題となる。
  • 解決策:
    • ローカライズ: 高品質な英語データを各言語の文化に合わせてローカライズ (例: "president of the United States" -> "日本の首相")。
  • 表16: PaLM 2をベースにした古い事後学習レシピを用いたBardと比較した、5つの言語におけるGemini (Pro使用) の性能。
    • 評価指標: SxSスコア (Side-by-Side score)。モデルAとモデルBを比較し、Aが好ましい場合は正の値、Bが好ましい場合は負の値を、-1.5から1.5のスケールで付与。
    • 結果: すべての言語で、品質、コーディング、推論のSxSスコアが0.1以上向上。Gemini Proのコーディングと推論における利点は、多言語全体で維持されている。

Gemini APIモデル:

  • 追加の多言語事後学習データ: 英語モデルを様々な言語で使用できるように、追加の多言語事後学習データで学習。
  • データ: 人間が作成した英語以外のプロンプトと応答のペア、および自動翻訳されたペアを使用。
  • 翻訳データの品質確保:
    • 翻訳可能性フィルタリング: 自動翻訳しても意味が通らないプロンプトと応答のペアを除外 (例: 特定の単語数要件、英語中心的な内容、ラテン文字中心的な内容)。
    • 翻訳品質検証: 翻訳されたプロンプトと応答のペアは、少なくとも3人の人間の評価者によって翻訳品質が評価され、過半数の評価者が正確であると評価した場合にのみ最終的な混合物に含める。

5.1.4節: 事後学習済みGemini APIモデルの多言語能力の評価結果を報告。

考察:

  • 多言語対応は、Geminiを世界中のユーザーが利用できるようにするために不可欠である。
  • Gemini AppsモデルとGemini APIモデルは、それぞれ異なるアプローチで多言語対応を実現している。
  • 高品質な多言語データと適切な学習技術を用いることで、Geminiは様々な言語で高精度な応答を生成できる。

このセクションでは、Geminiの多言語対応に向けた取り組みと、その成果を示しています。Geminiは、多言語対応においても優れた性能を発揮しており、世界中のユーザーにとって有用なAIシステムとなる可能性を秘めています。

6.5.4. Multimodal Vision

Gemini論文の6.5.4. Multimodal Visionでは、Geminiのマルチモーダルな視覚理解能力を向上させるための事後学習について解説しています。Geminiは、テキストだけでなく画像も理解できるマルチモーダルモデルであり、このセクションでは、画像理解能力をGemini AppsとGemini APIモデルにどのように組み込んでいるかを説明しています。

Gemini Appsモデル:

  • ファインチューニング: 事前学習済みGeminiモデルを、テキストのみのデータと画像とテキストのデータの混合でファインチューニング。
  • データバランス: テキストのみのインタラクションの品質に悪影響を及ぼすことなく、モデルが堅牢な画像理解能力を開発できるように、テキストデータとマルチモーダルデータのバランスを慎重に調整。
  • 評価:
    • 人間が作成した合成画像とテキストのプロンプトと応答のデータセットを収集し、モデルの比較と選択のために人間の評価を実施。
    • テキストのみのタスクでは、この画像とテキストのデータで学習したGemini Apps Proモデルは、テキストデータのみで学習した同等のモデルと比較して、SxSスコアが+0.01±0.01となり、テキストのみのタスクの品質が維持されていることを確認。
    • SFTとRLHFで事後学習したGemini Apps Proモデルは、SFTのみで事後学習したモデルと比較して、画像理解タスクのSxSスコアが+0.223±0.06となり、マルチモーダルタスクの性能が向上。

Gemini APIモデル:

  • 評価:
    • 事前学習済みモデルと、SFTによって事後学習されたGemini API Visionモデルの性能を、一連の標準ベンチマークで追跡することで、SFTによる事後学習の影響を評価。
    • 表17: 事前学習済みモデルと事後学習済みGemini APIモデルの性能差を示す表。

表17:

  • 事前学習済みモデルは、すでに高い性能を示しているが、事後学習によってInfographicVQA、AI2D、VQAv2などのベンチマークで性能が向上。
  • これは、モデルの指示追従能力が向上し、モデルの出力スタイルがゴールデンリファレンスのスタイルと一致するようになったためと考えられる。

考察:

  • マルチモーダルな事後学習は、Geminiの画像理解能力を大幅に向上させる。
  • テキストデータとマルチモーダルデータのバランスを調整することで、テキストのみのタスクの品質を維持しながら、画像理解能力を向上させることができる。
  • 事後学習によって、Geminiは画像とテキストをより効果的に統合し、より複雑なマルチモーダルタスクを処理できるようになる。

このセクションでは、Geminiのマルチモーダルな視覚理解能力を向上させるための事後学習について解説しています。事後学習によって、Geminiは画像とテキストをより深く理解し、より人間に近い形で情報を処理できるAIシステムに近づいています。

6.5.5. Coding

Gemini論文の6.5.5. Codingでは、Geminiのコーディング能力を向上させるための事後学習について解説しています。Geminiは事前学習の段階ですでに強力なコーディング能力を持っていますが、事後学習によってその能力をさらに強化することができます。

事後学習の効果:

  • コード品質の向上: より正確で読みやすいコードを生成できるようになる。
  • コードの正確性の向上: バグが少なく、意図したとおりに動作するコードを生成できるようになる。

データ:

  • 高品質な実証データとフィードバックデータ: コーディング能力向上には、高品質な実証データとフィードバックデータが不可欠。
  • 収集方法: Gemini AppsモデルとGemini APIモデルは、人間による作成と合成的なアプローチを組み合わせて、このようなデータを収集。

評価:

  • 内部ベンチマーク: コードのユースケースと言語にわたって分布する、内部で作成されたプロンプトのセットで、Gemini Appsモデルのコーディング性能を評価。
  • 表18: SxSスコア (Side-by-Side score) を用いたGeminiモデルの比較。
    • Gemini (Pro使用) は、PaLM 2をベースにした古い事後学習レシピを用いたBardよりも大幅に性能が向上。
    • Gemini Advanced (Ultra使用) は、Gemini (Pro使用) よりもさらに性能が向上。

表18:

  • Side A: Gemini (Pro使用), Gemini Advanced (Ultra使用)
  • Side B: Bard (PaLM 2, 2023年9月), Gemini (Pro使用)
  • 結果: Gemini (Pro使用) はBardよりもSxSスコアが0.19±0.03高く、Gemini Advanced (Ultra使用) はGemini (Pro使用) よりもSxSスコアが0.13±0.02高い。

事後学習済みGemini APIモデルのコーディング能力:

  • 表2: 学術ベンチマークにおける性能を報告。

考察:

  • 事後学習は、Geminiのコーディング能力を大幅に向上させる。
  • 高品質な実証データとフィードバックデータは、コーディング能力向上に不可欠である。
  • Geminiは、様々なコーディングタスクにおいて、高品質で正確なコードを生成できる強力なツールとなる可能性がある。

このセクションでは、Geminiのコーディング能力を向上させるための事後学習について解説しています。事後学習によって、Geminiはより高品質で正確なコードを生成できるようになり、開発者の生産性向上に貢献する可能性があります。

7. Responsible Deployment

Gemini モデルの開発中は、Google の AI テクノロジーの以前のリリース (Kavukcuoglu 他、2022 年) に沿って、モデルの予測可能な下流の社会的影響を特定、測定、管理するための構造化されたアプローチに従って責任ある展開を行います。プロジェクトのライフサイクル全体を通じて、以下の構造に従います。このセクションでは、私たちのアプローチについてさらに詳しく説明し、可能な場合は主要な調査結果も示します。私たちは継続的な透明性に取り組んでおり、今後のレポートで私たちのアプローチとテストに関する最新情報を提供し続けます。

7.1. Impact Assessment

Google では、Google の AI 原則 (Google、2023) に関連する影響評価フレームワークを製品開発ライフサイクル全体に適用しています。つまり、構築している AI モデルのリスクと影響を、モデル レベル (Cloud Studio または Vertex AI にデプロイされた Gemini API Ultra 1.0 など) と、より広範な製品またはサービスに組み込まれた後 (Gemini Advanced など) の両方で評価します。

7.1.1. Model Assessment

Gemini論文の7.1.1. Model Assessmentでは、Geminiモデルの影響評価 (Impact Assessment) について解説しています。Googleは、AI原則に基づき、開発するAIモデルの潜在的な利益とリスクを特定し、評価することを重視しています。

影響評価の対象:

  • Gemini APIモデル: テキスト生成、画像理解、動画理解といったモデルの能力が社会に及ぼす影響を評価。
  • 評価範囲: テキストからテキスト、画像からテキスト、動画からテキストへの変換といった、モデルのモダリティ全体を網羅。

影響評価の実施:

  • 担当チーム: Google DeepMindの責任ある開発とイノベーションチームが実施。
  • レビュー: Google DeepMindの責任と安全に関する評議会がレビュー。
  • 情報源:
    • 幅広い文献
    • 外部専門家の意見
    • Google社内の倫理・安全に関する研究

Geminiモデルの潜在的な利益:

  • 効率的な情報処理: 言語、画像、動画理解能力により、コンテンツ要約などを通じてユーザーの情報処理を効率化。
  • ビジネスへの貢献: テキスト、画像、動画処理に依存するユースケース (例: 動画キャプション、分析、製品説明) を支援。
  • 社会貢献: アクセシビリティ向上のための視覚出力の説明など、社会貢献アプリケーションへの応用。

Geminiモデルの潜在的なリスク:

  • 安全でないコンテンツへの曝露: 性的に露骨な、暴力的な、またはヘイトフルな出力への曝露 (Weidinger et al., 2021)。
  • 児童の安全への危害: 児童の性的虐待や搾取に関連するコンテンツの生成。
  • 表現の偏り: 特定のグループに対する偏見やステレオタイプを反映した出力。
  • 監視への悪用: 特にメディアからテキストへの変換能力において、監視アプリケーションへの悪用。
  • 環境・経済への影響: マルチモーダルモデルの開発・運用に伴う環境負荷や経済格差の拡大。

継続的なリスク評価:

  • 新たなリスクの調査: サイバーセキュリティ脅威などの高度なモデルの新たなリスクについて継続的に調査 (Section 7.4)。

考察:

  • Googleは、Geminiモデルの潜在的な利益とリスクを特定し、評価するために、体系的な影響評価を実施している。
  • 影響評価は、責任あるAI開発のための重要なプロセスであり、AIモデルが社会に及ぼす影響を理解し、軽減するために不可欠である。

このセクションでは、Geminiモデルの影響評価について解説し、GoogleがAI原則に基づき、責任あるAI開発に取り組んでいることを示しています。影響評価は、AIモデルが社会に受け入れられ、その利益を最大限に享受するために重要なプロセスです。

7.1.2. Product Assessments

Gemini論文の7.1.2. Product Assessmentsでは、モデルレベルの評価に加えて、製品レベルでのリスク評価を実施していることを説明しています。これは、Geminiモデルが実際に製品に組み込まれた際に生じる可能性のあるリスクを、より具体的に評価するためです。

製品レベルのリスク評価:

  • 実施主体: Google AI原則チーム
  • 実施時期: 製品リリース前
  • 評価対象: Gemini Advancedなどの、Geminiモデルを利用した製品
  • 評価内容: モデルレベルの評価と同様に、社会的な影響、倫理的な問題、安全性のリスクなどを評価。
  • 目的:
    • 緩和策を検討し、製品開発に役立てる。
    • デプロイメントの意思決定に情報を提供する。

Gemini Advancedのリスク評価:

  • 重点分野: 安全性、説明責任、包括性
  • 評価方法: ドッグフーディングと敵対的テストによる広範なレッドチーミング
  • 目的: 初期の試験的な展開と、その後のアップデートに備える。
  • 具体的な緩和策:
    • コンテンツの安全性に加えて、以下の製品レベルの緩和策を実施。
      • 適切な期待値を設定するための明確で関連性の高い説明を提供。Geminiは、複雑なタスクを含む幅広いタスクにGoogle AIを直接利用する方法であることを明確にする。
      • Gemini Appsプライバシーに関する通知に、医療、法律、金融、その他の専門的なアドバイスとしてGeminiの回答に頼るべきではないことを明記。
      • Geminiの回答は情報の正確性について再確認する必要があることを明記。
      • モデルの改善と問題解決を支援するためのフィードバックチャネルと運用サポートを定義・構築。

Gemini API Ultraのリスク評価:

  • 追加の安全性評価: 企業固有のデータに対する安全性評価を、複数のモダリティにわたって実施。
  • 製品レベルの緩和策:
    • Cloudで確立されたしきい値を持つ安全フィルターをデフォルトの製品動作として設定。
    • 責任ある使用をサポートするための開発者向け情報を製品ドキュメントに組み込む。
    • 問題や望ましくない出力を直接報告するためのフィードバックチャネルをVertexユーザーインターフェースに組み込む。

考察:

  • Googleは、モデルレベルだけでなく、製品レベルでもリスク評価を実施することで、Geminiモデルを利用した製品の安全性を確保しようと努めている。
  • 製品レベルのリスク評価は、モデルの能力だけでなく、ユーザーインターフェース、利用シナリオ、フィードバックメカニズムなどを考慮することで、より現実的なリスクを評価できる。
  • Googleは、リスク評価の結果に基づいて、適切な緩和策を講じることで、ユーザーにとって安全で信頼できるAI製品を提供することを目指している。

このセクションでは、Geminiモデルを利用した製品のリスク評価について解説し、GoogleがAI原則に基づき、責任あるAI製品の開発・展開に取り組んでいることを示しています。製品レベルのリスク評価は、AI技術を社会に安全に導入するために不可欠なプロセスです。

7.2. Safety Policies

Gemini論文の7.2. Safety Policiesでは、Geminiモデルの開発と評価を導くための安全性ポリシーについて解説しています。これらのポリシーは、責任ある開発のための標準化された基準と優先順位付けの枠組みとして機能し、Geminiモデルがリリース基準を満たしているかを測定するためのカテゴリを定義します。

安全性ポリシーの目的:

  • Geminiモデルの開発と評価を責任ある方法で進める。
  • リリース基準を満たしているかを測定するための明確な基準を提供する。
  • ユーザーの安全と福祉を保護する。

安全性ポリシーの適用範囲:

  • 会話型AIサービスであるGemini
  • Cloud Vertex AI

安全性ポリシーの内容:

  • 児童の性的虐待および搾取コンテンツの生成の禁止: 児童の安全を最優先に考え、児童の性的虐待や搾取に関連するコンテンツの生成を厳しく禁止。
  • ヘイトスピーチ、ハラスメント、差別的コンテンツの禁止: あらゆる形態のヘイトスピーチ、ハラスメント、差別を禁止。
  • 危険なコンテンツの生成の禁止: 武器の作り方など、危険な行為を助長するコンテンツの生成を禁止。
  • 悪意のあるコンテンツの生成の禁止: マルウェアやフィッシング攻撃など、悪意のある目的で使用される可能性のあるコンテンツの生成を禁止。
  • 偏りの軽減: モデルの出力に偏りがないように、多様なデータセットを用いて学習し、公平性を評価する。
  • 中立性と事実性の重視: 信頼できる情報源に基づいた中立的で事実に基づいた回答を提供することを目指す。合意が得られていない場合は、複数の視点を提示する。

ポリシーの実施:

  • Googleは、広範な有害コンテンツ対策と厳格な研究に基づいた、製品の安全性に関する標準的なポリシーフレームワークを導入。
  • これらのポリシーは、18歳未満のユーザーに対する追加の安全対策など、製品のユースケースを考慮している。

考察:

  • Googleは、Geminiモデルの安全性確保のために、包括的な安全性ポリシーを策定し、実施している。
  • これらのポリシーは、AI原則に基づいており、ユーザーの安全と福祉を保護することを目的としている。
  • Googleは、安全性ポリシーを継続的に見直し、改善することで、より安全で信頼できるAIシステムの開発を目指している。

このセクションでは、Geminiモデルの安全性ポリシーについて解説し、GoogleがAIの倫理的な側面を重視し、責任あるAI開発に取り組んでいることを示しています。安全性ポリシーは、AI技術を社会に安全に導入するために不可欠な要素です。

7.3. Mitigations

7.3.1. Data Curation Practices

すべてのトレーニング段階の前に、データのキュレーションと慎重なデータ収集を通じて、下流での潜在的な損害を軽減するためのさまざまな手順を踏んでいます。トレーニング データをフィルタリングして高リスクのコンテンツを排除し、トレーニング データが十分に高品質であることを確認します。
トレーニング後のプロセスでは、データの作成と評価の両方において人間も重要な役割を果たします。特定のデータ作成および評価の取り組みでは、性別、年齢、人種、民族の多様性を考慮します。また、収集されたすべてのデータが、Partnership on AI のデータ エンリッチメント サービスの責任ある調達に基づいて開発された、Google DeepMind のデータ エンリッチメントに関するベスト プラクティスを満たしていることを確認する手順も踏んでいます。これをサポートするために、ベンダーとの契約には、データ エンリッチメント作業員に少なくとも現地の生活賃金を支払うという契約上の義務が含まれています。

7.3.2. Model Mitigation

Gemini Advanced および Gemini API Ultra モデル全体に​​適用されている安全性リスクのモデリング緩和は、主にポストトレーニング (セクション 6) を通じて行われ、報酬モデル (Bai et al.、2022a) を使用した教師あり微調整 (SFT) と人間によるフィードバックによる強化学習 (RLHF) を網羅しています。あらゆる種類のユーザークエリに対応する一般的な品質指向のポストトレーニングとは対照的に、当社の安全性緩和は敵対的、つまり「危害を誘発する」クエリ、つまり、保護されていないモデルがモデル安全性ポリシーに従って有害な応答を生成する可能性が高いユーザークエリのより小さな部分に重点を置いています。
Gemini論文の7.3.2. Model Mitigationでは、Gemini AdvancedとGemini API Ultraモデルにおける安全性リスクの緩和策について解説しています。これらの緩和策は、主に事後学習を通じて実装され、モデルが有害な出力を生成する可能性を減らすことを目的としています。

1. 対象:

  • Gemini Advanced: 会話型AIサービス
  • Gemini API Ultra: 開発者向けAPI

2. 手法:

  • 事後学習 (Post-training):
    • 教師ありファインチューニング (SFT)
    • 人間のフィードバックからの強化学習 (RLHF) を報酬モデル (RM) と共に使用。

3. 重点:

  • 敵対的なクエリ ("harm-inducing queries") への対策: 一般的なクエリではなく、保護されていないモデルが有害な応答を生成する可能性が高いクエリに焦点を当てる。

4. 敵対的なクエリの生成:

  • 約20種類の害の種類 (harm types) を定義: ヘイトスピーチ、根拠のない医療アドバイス、危険な行動の提案など。
  • 多様なユースケースを考慮: モデルの安全性ポリシーに基づいて、様々なユースケースで発生する可能性のある害を網羅。
  • 生成方法:
    • ポリシー専門家とエンジニアによる、観察されたモデルの失敗に基づいたクエリの作成。
    • 高性能言語モデルを用いた、ポリシーベースの指示とシードキーワードに基づくクエリの生成 (例: ポリシー「ヘイトスピーチ」と特定の人口統計を表す単語)。
    • モデル評価における自動レッドチーミングによる、ポリシー違反の応答をトリガーするクエリの発見。

5. 教師ありファインチューニング (SFT):

  • 目的: 敵対的なクエリに対して、安全で役立つ応答を生成するようにモデルを学習させる。
  • データ: 人間の収集と、Constitutional AI (Bai et al., 2022b) から着想を得たカスタムデータ生成レシピを使用。
  • Constitutional AI: Googleのコンテンツポリシー言語を「憲法」として注入し、言語モデルのゼロショット推論能力 (Kojima et al., 2022) を利用して応答を修正し、複数の応答候補から選択。
  • 課題と洞察:
    • 無害性と有用性のバランス: 「Xポリシーに違反するため、お手伝いできません」という応答は無害だが、ユーザーにとって役に立たない。
    • 迅速な緩和と汎化: 安全性の状況は常に変化し、有害なクエリパターンも進化するため、迅速な緩和 (新しい有害なクエリパターンに迅速に対応) と汎化 (様々な有害なクエリパターンに効果的に対応) の両方を確保することが難しい。
    • 解決策: 安全性ポリシーの概念に基づいた、より高度な連鎖的な思考レシピを導入。

6. 人間のフィードバックからの強化学習 (RLHF):

  • 目的: SFTのみよりもさらに、敵対的なクエリに対するモデルの応答を人間の好みに近づける。
  • データ: 観察された損失パターンと全体的な安全性ポリシー分類に基づいて、クエリとモデル応答をキュレーションし、安全性に特化した選好データを収集。
  • プロセス: RLHFは、RLがRMの限界を押し広げ、RMは評価とデータ収集を通じて継続的に改善されるという反復的なプロセス。

7. その他の取り組み:

  • 国際化 (i18n): 各地域の専門家を活用し、SFTデータ生成のための重要なトピックを特定 (例: ヘイトスピーチの場合、米国英語と日本語では、対象となる人口集団が異なる)。
  • マルチモーダルなクエリ:
    • データキュレーションの実践 (7.3.1節) で概説されているように、モデルが積極的に危険なコンテンツを生成するのを避けるために、学習データから危険なコンテンツ (例: 危険な画像) をフィルタリング。
    • テキストのみのクエリの安全性SFTデータは、テキストと画像を含む有害なクエリに対して効果がないことが観察されたため、これらのマルチモーダルなクエリに対処するために、マルチモーダルな安全性SFTデータセットを作成。

考察:

  • Googleは、事後学習を通じて、Geminiモデルの安全性リスクを軽減するための多層的なアプローチを採用している。
  • 敵対的なクエリに焦点を当てることで、モデルが有害な出力を生成する可能性を減らすことができる。
  • 人間のフィードバックを活用することで、モデルの応答を人間の好みに近づけることができる。

このセクションでは、Geminiモデルの安全性リスク緩和策について詳細に解説し、Googleがユーザーの安全と福祉を最優先に考えてAI開発に取り組んでいることを示しています。これらの緩和策は、AI技術を社会に安全に導入するために不可欠な要素です。

7.4. Safety Evaluations

トレーニング後の Gemini モデルと、Gemini モデルにアクセスできる製品 (Gemini Advanced など) を、影響評価で特定された安全ポリシー領域やその他の主要なリスク領域に照らして評価するために、モデル開発のライフサイクル全体にわたる一連の評価を開発しました。一部の評価はモデル レベル (トレーニング後の Gemini API Ultra モデルの評価など) で実施され、その他の評価は製品レベル (安全フィルターなどの他の機能とともに 1.0 Ultra にアクセスできる Gemini Advanced の評価など) で実施されます。

  • 開発評価は、トレーニング前とトレーニング後の Gemini モデル全体に​​わたって責任基準を改善する目的で実施されます。これらの評価は社内で設計されるか、外部の学術ベンチマークに対する評価です。評価では、有用性 (指示の遵守と創造性)、安全性、事実性などの問題が考慮されます。
  • 保証評価は、ガバナンスとレビューを目的として実施され、通常は主要なマイルストーンの終了時、またはモデル開発チーム以外のグループによるトレーニング実行時に実施されます。保証評価はモダリティごとに標準化され、データセットは厳密に公開されます。トレーニング プロセスには、リスク軽減の取り組みを支援するために、高レベルの洞察のみがフィードバックされます。保証評価には、安全ポリシー全体のテストが含まれ、潜在的なバイオハザード、説得、サイバー セキュリティなどの危険な機能の継続的なテストが含まれます (Shevlane 他、2023)。
  • 外部評価は、盲点を特定するためのドメイン エキスパートである独立した外部グループによって実施されます。外部グループは、さまざまな問題にわたってモデルをストレス テストします。これらの領域については、以下の「外部評価」セクションで概説します。これらの評価の設計は独立しており、結果は定期的に社内チームとガバナンス グループに報告されます。
  • レッド チームは、敵対者が AI システムに攻撃を仕掛ける敵対的テストの一種で、安全ポリシーやセキュリティなどの領域にわたる専門の社内チームによって実施されます。これらのアクティビティには、新しい脆弱性を特定するための高度な敵対的攻撃を含む、構造化されていないプロセスが含まれます。潜在的な弱点を発見することで、リスクを軽減し、社内で評価アプローチを改善できます。

関連するリスクに応じて、異なるタイプの評価が、異なる頻度で実行されます。たとえば、危険な機能の評価(以下に概説)は、これらの機能を実証できる可能性のある、より優れた機能または新しい機能を備えた特定のチェックポイントで実行されますが、安全性ポリシーの評価は、Google の製品領域にリリースされたすべてのトレーニング済み Gemini モデル チェックポイントで実行されます。
以下では、ポリシー領域とその他の主要なリスク領域にわたる一連の評価について、Gemini Advanced と Gemini API Ultra モデルに焦点を当てて詳しく説明します。私たちは継続的な透明性に取り組んでおり、今後のレポートで、主要な調査結果や内部および外部の評価とレッドチームから得た教訓など、実施したテストに関する最新情報を提供し続けます。

7.4.1. Development & Assurance Evaluations

7.4.1.1 Content safety

Gemini論文の7.4.1.1 Content safetyでは、Gemini APIモデル、特にGemini AdvancedとGemini API Ultraモデルのコンテンツ安全性に関する評価について解説しています。これは、モデルが有害なコンテンツを生成するリスクを最小限に抑えるための重要な取り組みです。

1. 評価対象:

  • Gemini APIモデル: 特にGemini AdvancedとGemini API Ultra
  • 害の種類: 安全性ポリシーで定義された害の種類 (例: ヘイトスピーチ、児童の安全、危険なコンテンツ)

2. 評価の種類:

  • 開発評価 (Development evaluations): モデル開発中に責任基準を満たすために実施。内部設計または外部学術ベンチマークに基づく評価。
  • 保証評価 (Assurance evaluations): ガバナンスとレビューのために、主要なマイルストーンまたはトレーニング実行の最後に、モデル開発チーム以外のグループによって実施。標準化されたモダリティと厳格に保持されたデータセットを使用。

3. データセット:

  • 開発評価と保証評価: 過剰適合を防ぎ、結果の妥当性を維持するために、別々のデータセットを使用。
  • 保証評価: 安全性ポリシー全体をテストし、バイオハザード、説得、サイバーセキュリティ (Shevlane et al., 2023) などの危険な能力のテストを含む。

4. 評価方法:

  • 自動分類器: 過去のモデルインタラクションに基づいて学習させた自動分類器を使用。
  • 人間の注釈: 人間の注釈者による評価も実施。注釈者のためのウェルビーイングプログラムを導入し、有害なコンテンツの評価に費やす時間制限、ウェルビーイングリソースへのアクセス、アドバイスと活動を提供。

5. モダリティ別の評価:

  • テキストからテキスト:
    • 12言語で、コード生成からテキスト編集まで、様々なユースケースを網羅する敵対的なプロンプトを開発。
    • 高性能言語モデルによって合成的に生成し、人間のテスターによって収集・検証された各カテゴリに関連するシードから開始。
    • プロンプトセットは、フィルタリングと書き換えを通じて、人間のレビューによって反復的に改善。
    • 開発評価と保証評価のために分割。
  • 画像からテキスト:
    • 敵対的なプロンプトは、画像とそれに対応する質問で構成。
    • 敵対的な画像生成ではなく、経験豊富なコンテンツモデレーターと協力して画像を調達し、敵対的な質問を生成。
    • 画像はテキストよりも生々しい可能性があるため、人間の評価は追加のウェルビーイング対策を講じて実施。
  • 動画からテキスト:
    • Google Principles Pioneers (39カ国・地域、85以上の言語を代表する1,000人以上のGoogle社員) と協力して、動画プロンプトデータセットを作成。
    • データセットは、安全性ポリシーで特定されたリスクを対象とし、モデルの出力はそれらのポリシーに照らして評価。

6. 結果:

  • テキストからテキスト: 全体的なコンテンツポリシー違反率は時間の経過とともに改善。UltraモデルとProモデルは同様の安全性プロファイルを、医療アドバイスとハラスメントを改善の余地があるポリシー領域として示す。
  • 画像からテキスト: 当初の調査結果では、敵対的な画像と質問を与えられた場合、モデルは違反となる応答を含むキャプションを生成する可能性があることが判明。この発見により、専用のマルチモーダル安全性緩和策の開発が進められ、最新のProモデルとUltraモデルでは、これらの評価において顕著な改善が見られた。
  • 動画からテキスト: ProとUltraで同様の結果が得られ、ヘイトと危険なコンテンツが特に改善の余地がある領域として特定された。定性的に、これらの問題の一部は、幻覚や根拠のない推論に起因することが判明 (表現の害に関するセクションで詳しく説明)。

7. 考察:

  • Googleは、Gemini APIモデルのコンテンツ安全性を評価するために、厳格な開発評価と保証評価を実施している。
  • これらの評価は、モデルが有害なコンテンツを生成するリスクを特定し、軽減するために重要である。
  • Googleは、様々なモダリティにわたってコンテンツ安全性を向上させるために、継続的に努力している。

このセクションでは、Gemini APIモデルのコンテンツ安全性評価について詳細に解説し、Googleがユーザーに安全なAI体験を提供するために、多大な努力を払っていることを示しています。コンテンツ安全性は、AI技術を責任ある方法で開発・展開するために不可欠な要素です。

7.4.1.2 Representational harms

Gemini論文の7.4.1.2 Representational harmsでは、Geminiモデルにおける表現の害、つまり、モデルの出力に偏見やステレオタイプが反映されてしまう問題について評価しています。これは、AIシステムが社会的に公平で公正であるために重要な課題です。

評価方法:

  • テキストからテキスト:
    • データセット: Winogender (Rudinger et al., 2018), Winobias (Zhao et al., 2018), Bias Benchmark in QA (BBQ) (Parrish et al., 2021) を使用。
    • 設定: Glaese et al. (2022) と同じ設定を使用し、バイアススコアを指標として使用。
    • 評価内容: これらのデータセットは、有害なステレオタイプから始まり、モデルが質問に答える際にこれらのステレオタイプに挑戦するのか、それとも強化するのかをテストするように設計されている。
    • 限界: これらのデータセットの多くは、特に高性能な大規模モデルを評価する場合、精度スコアが99%に近づくため、すぐに飽和状態になってしまう。これは、言語モデルの能力の向上が、これらの表現の害を軽減する可能性も示唆している。
  • 画像からテキスト:
    • 目的: 異なるグループの人々を表す画像に対して、モデルが同様の品質で説明できるかどうかをテスト。
    • 評価指標: CIDErスコア (Vedantam et al., 2015) を使用。CIDErスコアは、生成されたキャプションが人間の作成した参照キャプションにどれだけ反映されているかを測定する、一般的な画像キャプション指標。
    • データセット:
      • 異なる性別や肌の色の人々を描いた画像を使用。
      • Dollarstreetデータセット (Rojas et al., 2022) を使用して、異なる地理的位置からの画像に対する性能の差異を測定。
    • 追加分析: MIAPデータセット (Schumann et al., 2021) を使用して、キャプションで人々がどのように描写されているかを分析。このデータセットには、肌の色と性別の外観属性で注釈が付けられた人々の画像が含まれている。
    • 評価方法: 画像のみから回答できない質問 (例: 「この人の教育レベルは?」) を作成し、モデルが人々について根拠のない推論を行うかどうかをテスト。また、質問に関連する情報を含む画像 (例: 教育資格を必要とする特定のタスクを実行している人) も考慮。人間の評価を通じて、モデルが質問に答えることを拒否するかどうか、またはモデルが質問に答える場合、画像に見える情報に依存しているかどうかを評価。さらに、画像内の肌の色と性別の外観属性にわたって分析を実施。
  • 動画からテキスト:
    • データセット: コンテンツ安全性セクションで概説したアプローチと同様に、Google Principles Pioneersと協力して、表現と公平性のリスクを対象とした動画プロンプトデータセットを作成。
    • 評価内容: モデルの出力を評価。

結果:

  • テキストからテキスト: BBQでは、バイアススコアは-1から1のスケールでゼロに近い値を維持。-1はステレオタイプに反論し、1はステレオタイプを強化することを意味する。Real Toxicity Promptsでは、学習中の平均毒性スコアは約6%で推移。
  • 画像からテキスト: 一般的に、モデルはプロンプトされた場合に画像からテキストへの根拠のない推論を行う可能性があることが判明したが、Geminiモデルが特定のグループについて他のグループよりも多くの根拠のない推論を行うという一貫したパターンは観察されなかった。
  • 動画からテキスト: モデルは動画からテキストへの根拠のない推論を行う可能性があり、その中にはステレオタイプを強化したり、懸念を引き起こすものもあるが、Geminiモデルが行う根拠のない推論に一貫したパターンは観察されなかった。

考察:

  • Googleは、Geminiモデルにおける表現の害を評価するために、様々なデータセットと評価指標を使用している。
  • 高性能な言語モデルは、従来のベンチマークではバイアススコアが飽和状態に近いため、新しい評価方法の開発が必要である。
  • 画像からテキストの評価では、モデルが根拠のない推論を行う可能性があることが判明したが、特定のグループに対する偏りは観察されなかった。
  • 動画からテキストの評価でも同様の結果が得られた。

このセクションでは、Geminiモデルにおける表現の害の評価について解説し、GoogleがAIシステムの公平性と公正さを向上させるために、継続的に努力していることを示しています。表現の害は、AI技術が社会に受け入れられるために重要な課題であり、今後の研究開発においても重要なテーマとなるでしょう。

7.4.1.3 Dangerous capabilities

Gemini論文の7.4.1.3 Dangerous capabilitiesでは、Geminiモデルが大規模な危害を引き起こす可能性のある能力、すなわち「危険な能力」について評価しています。この評価は、安全性への投資が必要な分野を早期に特定するための警告システムとして機能します。

評価方法:

論文では、具体的な評価方法の詳細については、今後の論文で詳しく説明すると述べていますが、以下の能力について評価が行われたことが示されています。

  • 攻撃的なサイバーセキュリティ:
    • 評価対象: Gemini API Pro、Ultra、およびGemini Advanced
    • 評価内容:
      • 各種Capture The Flag (CTF) 課題を、Bashシェルへのアクセスを許可した状態でモデルに与え、解決能力を評価。
      • 関数のソースコードからセキュリティ関連のパッチや脆弱性を特定する能力を評価。
    • 結果:
      • Gemini AdvancedとGemini API Ultraモデルは、エントリーレベルの戦術的な課題をいくつか解決できたが、長期的な探索と計画を伴う課題には苦戦した。
      • セキュリティ関連のパッチや脆弱性を特定するタスクの精度は著しく低かった。
  • 説得と欺瞞:
    • 評価対象: Gemini Pro、Ultra
    • 評価内容: 人間参加者による研究で、1対1の対話設定において、モデルが人間を説得または欺瞞できるかどうかをテスト。
    • 結果: モデルは場合によっては参加者を欺瞞または影響を与えることができたが、全体的な結果はまちまちだった。
  • 自己増殖:
    • 評価対象: Gemini Pro、Ultra
    • 評価内容: Gemini ProおよびUltraモデルを搭載した自律型エージェントが、リソース獲得と自己改善に関連する困難なタスクを実行できるかどうかをテスト (Kinniment et al., 2023)。
    • 結果: エージェントがそのようなタスクのほとんどで成功に近づいていることは確認されなかった。
  • 状況認識:
    • 評価対象: Gemini Pro、Ultra
    • 評価内容: モデルが、インセンティブを与えられた場合に、周囲のインフラストラクチャについて自律的に推論し、変更できるかどうかをテスト。
    • 結果: ヒントなしでは、モデルは一般的にそのような機会に気付くことができなかった。
  • 化学、生物、放射線、核 (CBRN) リスク:
    • 評価対象: Gemini API Ultra、Gemini Advanced
    • 評価内容:
      • 生物学的、放射線的、および核の情報リスクに関する50の敵対的な質問に対するモデルの応答を、人間の評価を用いて評価。専門家は、一連の質問 (例: 回答の正確性、専門家以外の人が実行できる可能性) に答えることで、モデルの応答を評価。
      • 化学物質の情報リスクについては、Gemini API UltraモデルとGemini Advancedが、化学物質の様々な危険性に関する360以上のクローズドエンドの質問にどれだけうまく答えられるかを評価 (人間の評価者は使用せず)。
      • 生物学的、放射線的、および核の情報リスクについては、クローズドエンドの知識ベースの多肢選択問題を使用してモデルを評価。
    • 結果: モデルが壊滅的な被害につながるCBRN情報を提供する可能性は低いことが示唆された。

考察:

  • Googleは、Geminiモデルの潜在的な危険な能力を評価するために、多岐にわたる評価を実施している。
  • これらの評価は、安全性への投資が必要な分野を特定し、モデルの安全性を向上させるための重要な情報を提供する。
  • Googleは、継続的な評価と改善を通じて、Geminiモデルが安全かつ責任ある方法で使用されるように取り組んでいる。

このセクションでは、Geminiモデルの危険な能力の評価について解説し、GoogleがAIの安全性リスクを真剣に受け止め、積極的に対策を講じていることを示しています。AI技術の進歩に伴い、潜在的なリスクも増大するため、このような評価と緩和策はますます重要になってくるでしょう。

7.4.2. Gemini Advanced

モデル レベルで使用される多くのアプローチに加えて、Gemini Advanced の製品レベルで追加の評価が行われます。製品レベルでの評価では、Gemini Advanced に実装されている追加の安全性緩和策 (安全性フィルタリングなど) と Gemini Advanced のユーザー エクスペリエンスが考慮されます。評価セットは、非常に敵対的な攻撃から、より微妙なデリケートなトピックの調査まで、Gemini Advanced ポリシーの限界を押し上げるように構築されました。データセットは、さまざまな潜在的なユーザー ジャーニー (情報検索、比較、クリエイティブ ライティングなど) にわたる重要なポリシー領域 (ヘイト スピーチ、危険なコンテンツ、医療アドバイスなど) に焦点を当てています。
Gemini の幅広いユーザーを考慮して、ユーザー中心のアプローチを採用し、トピックの範囲、クエリの長​​さ、言語スタイル、地域固有の感度の多様性を最大限に高めて、ユーザー ベースの範囲を表すように努めました。
評価セットの作成では、以前のレッド チームの反復からの知識、責任の専門家からのフィードバック、実際のデータを活用しました。場合によっては、LLM を使用してデータ拡張が行われ、その後、担当スペシャリストが人間によるキュレーションを行いました。

7.4.3. Red Teaming

7.4.3.1 Model-level Red Teaming

Gemini論文の7.4.3.1 Model-level Red Teamingでは、モデルレベルでのレッドチーミングについて解説しています。レッドチーミングとは、AIシステムの脆弱性を発見するために、実際の攻撃者を模倣したテストを行うことです。

1. 目的:

  • 事後学習済みGeminiモデルを、様々な脆弱性 (例: サイバーセキュリティ、安全性、プライバシー) に対してテストする。
  • 潜在的な問題を特定し、モデルの安全性を向上させる。

2. レッドチーミングの種類:

  • 敵対的シミュレーション (非構造化テスト): 現実世界の攻撃者を模倣し、安全性、プライバシー、セキュリティの失敗に焦点を当てる。
  • 社会技術的アプローチ (構造化テスト): 安全性ポリシー違反と、異なる人口統計学的グループへの不均衡な影響との相互作用を明示的にテストする。専門家の意見 (実体験、ファクトチェック、医療専門知識) を活用し、様々なレベルの敵対的攻撃におけるモデルの失敗を対比する。

3. 敵対的シミュレーション:

  • 実施時期: 2023年12月のGemini API Ultraチェックポイントで実施。
  • シナリオ設定: レッドチームは、模倣する攻撃者、攻撃者の能力、動機、目標を概説するシナリオを設定。
  • 攻撃者の役割: チームは攻撃者の役割を担い、目標を達成するために攻撃者が開発・使用する可能性のある戦術、技術、手順を実行。
  • 攻撃目標:
    • 可用性の低下: システムの可用性を妨害する攻撃 (例: サービス拒否攻撃)。
    • 整合性の違反: システムのデータや動作を改ざんする攻撃 (例: データの改竄、モデルのポイズニング)。
    • プライバシーの侵害: システムから機密情報を入手する攻撃 (例: プロンプトの抽出、学習データの抜き出し)。
  • 評価指標: 攻撃の成功は、上記の目標のいずれか1つ以上を達成することで示される。

4. 攻撃者のプロファイル:

  • 決定意欲のある低スキル攻撃者: モデルを攻撃するために数時間費やす意思はあるが、高度なコーディングやプロンプトエンジニアリングの能力はない攻撃者。
  • より洗練された攻撃者: ファインチューニングや標的型攻撃を行う能力を持つ攻撃者。

5. 結果:

  • 初期バージョンのモデル: 暴力、自傷行為、危険物の使用を促すリクエストに対して肯定的な応答を生成する、単純な脱獄 (jailbreak) やプロンプトインジェクション攻撃に対して脆弱であることが判明。
  • 対策: 後続のモデルでは、この脆弱性を軽減。

6. 社会技術的レッドチーミング:

  • 安全性ポリシー違反: Gemini API Ultraをモデル安全性ポリシーに照らしてテストした結果、改善が必要な領域がいくつか特定された。
  • 敵対的攻撃レベル: 低レベルの敵対的設定では、コンテンツポリシー領域全体で脆弱性が特定された。高レベルの敵対的設定では、攻撃の成功率が上昇し、グループベースのステレオタイプ化とヘイトスピーチに関するより機微なシグナルが得られた。
  • 対策: 時間の経過とともに緩和策を適用および開発し続けている。

7. 考察:

  • モデルレベルのレッドチーミングは、Geminiモデルの安全性を向上させるために重要なプロセスである。
  • 敵対的シミュレーションと社会技術的アプローチを組み合わせることで、幅広い潜在的な脆弱性を特定できる。
  • レッドチーミングの結果は、モデルの改善に役立ち、より安全で信頼性の高いAIシステムの開発に貢献する。

このセクションでは、Geminiモデルに対するモデルレベルのレッドチーミングについて解説し、GoogleがAIの安全性リスクを真剣に受け止め、積極的に対策を講じていることを示しています。レッドチーミングは、AIシステムのセキュリティを強化し、悪意のある攻撃から保護するために不可欠なプロセスです。

7.4.3.2 Gemini Advanced

1.0 Ultra へのアクセスを提供する Gemini Advanced は、安全性とペルソナの評価を含む複数回のレッドチームテストを受けています。製品のテストには、テストを実施するために調整およびトレーニングを受けた複数のドメインの FTE SME である Principles Pioneers が採用されました。テストは、24 か国の 65 のオフィスから 164 人の Google テスターに​​よって実施され、1,400 件を超えるクエリ/会話が提出されました。また、すべてのポリシーで合計 10 万件以上の評価による大規模な安全性評価、デリケートなトピックの中立性と平等性を監視するための中立的な視点による評価、トーンを検証するためのペルソナ評価の複数回の反復も実施しました。
また、ポリシーと機能をテストするために、さまざまなドメインの SME が多数を占める Google 社員を「ドッグフーディング」プログラムに参加させました。最初の 14 時間で、何万人もの「ドッグフーダー」が 10 万件のクエリ/会話を行い、190 件を超えるドッグフーダー アンケートの回答が収集および分析され、11 件のユーザー エクスペリエンス調査インタビュー セッションが完了して統合されました。
レッド チームおよび安全性評価の結果は、評価をさらに強化し、反復的にモデルのパフォーマンスを向上させるために使用されます。

7.4.4. External Evaluations

7.4.4.1 Gemini Ultra External Evaluations

Gemini論文の7.4.4.1 Gemini Ultra External Evaluationsでは、外部機関によるGemini Ultraの評価について解説しています。Googleは、モデルの安全性向上のため、社内だけでなく、外部の専門家による評価も積極的に取り入れています。

目的:

  • モデルの安全性に関する取り組みを改善するため、Google以外の専門家グループによる評価を実施。
  • 潜在的な問題点や改善点の特定。

外部グループの選定:

  • 専門性: ホワイトハウスのコミットメント、米国AIに関する大統領令、ブレッチリー宣言で概説されている領域を含む、様々なドメイン分野の専門知識を持つグループを選定。
  • 専門分野:
    • 自律的な複製
    • 化学、生物、放射線、核 (CBRN) リスク
    • サイバー能力とサイバーセキュリティ
    • 社会的リスク (表現と分布の害、中立性と事実性、堅牢性と情報の危険性など)

評価方法:

  • ガイダンス: 各外部グループにはテストの範囲に関するガイダンスが提供されたが、テスト方法とプロンプトセットは各グループが独自に設計。
  • 報告: 各グループはGoogleとは独立してレポートを作成。
  • テストの種類:
    • 構造化評価: Cloud Vertex AI APIまたはチャットインターフェースを介した、バッチ処理による評価。
    • 定性的プロービング: モデルの動作を深く理解するための調査。
    • 非構造化レッドチーミング: モデルの脆弱性を発見するための、より自由度の高いテスト。
  • テスト対象: 2023年12月のGemini API Ultraモデルチェックポイント
  • アクセス: ブラックボックステストアクセスを提供。事前学習済みモデル、モデルの重み、学習データへの直接アクセスは提供しない。
  • モデル: 本番環境に対応したファインチューニング済みバージョンを使用。安全性ファインチューニングと安全フィルターがデフォルトで適用され、温度、トークン制限、Top-k、Top-pなど、いくつかのサンプリングパラメータを設定可能。
  • 安全フィルター: プログラムインターフェースを介したテストでは、一部の安全フィルターを無効にすることができたが、ほとんどのテストは安全フィルターを有効にした状態で行われた。これは、エンドユーザーのインタラクションを反映したモデルを評価し、モデルレベルの安全性だけでなく、より広範な側面をテストするため。

考察:

  • 外部機関による評価は、Geminiモデルの安全性に関する取り組みを多角的に検証し、改善するために重要である。
  • Googleは、外部からのフィードバックを積極的に受け入れ、モデルの安全性を向上させることに尽力している。
  • 透明性のある評価プロセスを通じて、AI技術に対する社会の信頼を構築することができる。

このセクションでは、外部機関によるGemini Ultraの評価について解説し、GoogleがAIの安全性向上に向けて、外部との協力体制を築いていることを示しています。外部評価は、モデルの潜在的なリスクをより深く理解し、効果的な緩和策を開発するために不可欠なプロセスです。

7.4.5. Gemini Advanced

Gemini Advanced では、3 種類の外部テストを実施しました。

  • 優先ユーザー プログラム: このプログラムでは、120 人のパワー ユーザー、主要な影響力を持つ人物、思想的リーダーからフィードバックを収集しました。このプログラムでは、ユーザー インターフェイスを通じて、また可能な場合は詳細なインタビューを通じて、安全性やその他のドメイン領域に関するリアルタイムのフィードバックを収集できます。重点領域には、安全性とペルソナ、機能性、コーディングと指示機能、事実性などが含まれます。
  • パワー ユーザー テスト: 外部ベンダーの 1 社を通じて募集した 50 人のパワー ユーザーのグループが、さまざまな領域にわたって Gemini Advanced のテストを実施しました。
  • セキュリティ テスト: パートナー エージェンシーを通じて募集した、セキュリティのバックグラウンドを持つ外部テスターのグループが、セキュリティとプロンプト インジェクションのテスト、ジェイルブレイク、ユーザー インターフェイスのセキュリティ障害のテストを実施しました。

7.5. Deployment

責任と安全性のレビューが完了した後、Gemini モデルの承認済みバージョンごとに内部モデル カード (Mitchell 他、2019) が作成されます。これは、重要なパフォーマンスと責任の指標を構造化して一貫性のある内部文書にまとめるため、また、これらの指標を時間の経過とともに適切に外部に伝えるためです。
当社は、技術レポートの更新やエンタープライズ カスタマー向けのドキュメントで、外部モデル カードとシステム カードを継続的にリリースしています。Gemini Ultra モデル カードについては、付録 10.1 を参照してください。
さらに、利用規約、モデルの配布とアクセス、変更管理、ログ記録、監視、フィードバックなどの運用面に関するオンライン コンテンツは、Gemini や Cloud Vertex AI などの関連製品 Web サイトで確認できます。重要な側面の一部は、以下にリンクまたは説明されています。

  • Generative AI 禁止使用ポリシー
  • Google 利用規約
  • Generative AI 利用規約
  • Google Cloud Platform 利用規約
  • Gemini プライバシー ポリシー
  • Google Cloud プライバシー ポリシー

8. Discussion and Conclusion

Gemini論文の8. Discussion and Conclusionでは、研究成果をまとめ、今後の展望について議論しています。

研究成果:

  • マルチモーダルAIの進歩: Geminiは、テキスト、コード、画像、音声、動画を理解するマルチモーダルモデルの能力を大幅に向上させました。
  • 最先端の性能: 最も高性能な事前学習済みモデルであるGemini Ultraは、様々なベンチマークで最先端の結果を達成しました。特に、試験ベンチマークMMLUでは人間レベルの性能を超え、多様な画像理解、動画理解、音声理解ベンチマークでも、タスク固有の変更やチューニングなしで最先端の性能を達成しました。
  • 新しいユースケース: Geminiの能力は、教育、問題解決、多言語コミュニケーション、情報要約、抽出、創造性など、多くの分野で新しいユースケースを可能にします。例えば、複雑な画像を解析し、画像、音声、テキストを組み合わせた指示を理解し、応答としてテキストと画像を生成することができます。

限界と今後の課題:

  • ハルシネーション: LLMが事実とは異なる情報を生成する「ハルシネーション」問題は依然として課題であり、出力の信頼性と検証可能性を向上させるための研究開発が必要です。
  • 高度な推論能力: 因果関係の理解、論理的推論、反事実的推論などの高度な推論能力は、まだLLMの得意分野ではありません。より困難で堅牢な評価方法を開発し、LLMの真の理解度を測定する必要があります。

今後の展望:

  • 大規模モジュール化システム: Googleは、将来的に、多くのモダリティにわたって幅広い汎化能力を持つ、大規模でモジュール化されたシステムを開発することを目指しています。
  • 責任あるAI開発: Googleは、AIの安全性、公平性、倫理に関する問題に取り組み、責任あるAI開発を継続していきます。

結論:

Geminiは、AIにおける大きな進歩であり、多くの分野に大きな影響を与える可能性を秘めています。Googleは、Geminiの開発を通じて得られた知見を活かし、より高度で人間に近いAIシステムの開発を目指していきます。

このセクションでは、Geminiの成果と限界をまとめ、今後の研究開発の方向性を示しています。Geminiは、AIが人間の能力を拡張し、より良い未来を創造するための強力なツールとなる可能性を秘めています。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?