ChatGPTの発表からちょうど一年が経ちました。
あらゆるテクノロジーの変化は、科学的発見を前進させ、人類の進歩を加速し、生活を改善する機会となります。私たちが今目の当たりにしている AI の変化は、私たちの生涯の中で最も深刻なものになると信じています。それは、それ以前のモバイルやウェブへの移行よりもはるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。それはイノベーションと経済発展の新たな波をもたらし、これまでに見たことのない規模で知識、学習、創造性、生産性を推進します。
それが私を興奮させている理由です。AI を世界中のあらゆる人にとって役立つようにするチャンスです。
AI ファースト企業としての当社の取り組みから 8 年近くが経ち、進歩のペースは加速するばかりです。現在、何百万人もの人々が当社の製品全体で生成 AI を使用し、答えの発見からより複雑な問題に至るまで、1 年前にはできなかったことを実行しています。新しいツールを使用して共同作業や作成を行うことについての質問。同時に、開発者は当社のモデルとインフラストラクチャを使用して新しい生成 AI アプリケーションを構築しており、世界中のスタートアップ企業や企業が当社の AI ツールを利用して成長しています。
これは信じられないほどの勢いですが、私たちは可能性のほんの表面をなぞり始めたにすぎません。
私たちはこの仕事に大胆かつ責任を持って取り組んでいます。それは、研究に野心的であり、人々と社会に多大な利益をもたらす機能を追求すると同時に、AI の能力が向上するにつれて安全策を組み込み、政府や専門家と協力してリスクに対処することを意味します。そして、当社はAI 原則に基づいて、最高のツール、基盤モデル、インフラストラクチャへの投資を継続し、それらを自社製品や他社製品に導入しています。
現在、私たちは、多くの主要なベンチマークにわたって最先端のパフォーマンスを備えた、これまでで最も有能かつ汎用的なモデルである Gemini を使って、次の一歩を踏み出しています。最初のバージョンである Gemini 1.0 は、Ultra、Pro、Nano などのさまざまなサイズに最適化されています。これらは Gemini 時代の最初のモデルであり、今年初めに Google DeepMind を設立したときに私たちが抱いていたビジョンを初めて実現したものです。この新時代のモデルは、当社が企業として取り組んできた最大の科学および工学的取り組みの 1 つを表しています。私はこれから起こること、そしてジェミニが世界中の人々に解き放つ機会に心から興奮しています。
Geminiとは
研究仲間の多くと同様、AI は私のライフワークの焦点です。10 代の頃にコンピューター ゲーム用の AI をプログラミングして以来、そして神経科学の研究者として脳の働きを理解しようと努めてきた長年を通じて、私は常に、よりスマートなマシンを構築できれば、それを利用して人類に信じられないほどの利益をもたらすことができると信じてきました。方法。
AI によって責任を持って強化された世界というこの約束が、Google DeepMind の取り組みを推進し続けています。私たちは長い間、人々が世界を理解し、世界と対話する方法からインスピレーションを得て、新世代の AI モデルを構築したいと考えてきました。AI は、スマートなソフトウェアというよりは、便利で直感的なもの、つまり専門家のヘルパーまたはアシスタントのように感じられます。
今日、私たちはこれまで構築した中で最も有能で汎用的なモデルであるGemini を紹介することで、このビジョンに一歩近づいています。
Gemini は、Google Research の同僚を含む Google 全体のチームによる大規模な共同作業の成果です。これは、マルチモーダルになるようにゼロから構築されており、テキスト、コード、オーディオ、画像、ビデオなどのさまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。
Gemini は、これまでで最も柔軟なモデルでもあり、データセンターからモバイル デバイスに至るまであらゆるもので効率的に実行できます。その最先端の機能により、開発者や企業顧客が AI を構築および拡張する方法が大幅に強化されます。
最初のバージョンである Gemini 1.0 を 3 つの異なるサイズに最適化しました。
- Gemini Ultra — 非常に複雑なタスクに対応する、当社最大かつ最も有能なモデル。
- Gemini Pro — 幅広いタスクに対応するための最良のモデル。
- Gemini Nano — オンデバイス タスク向けの最も効率的なモデル。
最先端のパフォーマンス
私たちは Gemini モデルを厳密にテストし、さまざまなタスクにおけるパフォーマンスを評価してきました。自然な画像、オーディオ、ビデオの理解から数学的推論に至るまで、Gemini Ultra のパフォーマンスは、大規模言語モデル (LLM) の研究開発で使用される 32 の広く使用されている学術ベンチマークのうち 30 において、現在の最先端の結果を上回っています。
90.0% のスコアを誇る Gemini Ultra は、数学、物理学、歴史、法律、医学、倫理などの 57 科目の組み合わせを使用して両方の世界をテストするMMLU (大規模マルチタスク言語理解) で人間の専門家を上回るパフォーマンスを示した最初のモデルです。知識と問題解決能力。
MMLU に対する新しいベンチマーク アプローチにより、Gemini はその推論機能を使用して、難しい質問に答える前により慎重に考えることができるようになり、第一印象のみを使用する場合よりも大幅な改善につながります。
Gemini は、テキストやコーディングを含むさまざまなベンチマークで最先端のパフォーマンスを上回ります。
Gemini Ultra は、意図的な推論を必要とするさまざまなドメインにまたがるマルチモーダル タスクで構成される新しいMMMUベンチマークでも 59.4% という最先端のスコアを達成しています。
私たちがテストした画像ベンチマークでは、Gemini Ultra は、さらなる処理のために画像からテキストを抽出するオブジェクト文字認識 (OCR) システムの支援なしで、以前の最先端モデルを上回りました。これらのベンチマークは、ジェミニの生来の多面性を強調し、ジェミニのより複雑な推論能力の初期の兆候を示しています。
詳細については、Gemini 技術レポートをご覧ください。
次世代の機能
これまで、マルチモーダル モデルを作成する標準的なアプローチには、さまざまなモダリティに合わせて個別のコンポーネントをトレーニングし、それらをつなぎ合わせてこの機能の一部を大まかに模倣することが含まれていました。これらのモデルは、画像の説明などの特定のタスクの実行には優れている場合がありますが、より概念的で複雑な推論には苦労します。
私たちは、Gemini をネイティブにマルチモーダルに対応できるように設計し、さまざまなモダリティについて最初から事前にトレーニングしました。次に、追加のマルチモーダル データを使用して微調整し、その有効性をさらに洗練しました。これにより、Gemini はあらゆる種類の入力をゼロからシームレスに理解し、推論することができ、既存のマルチモーダル モデルよりもはるかに優れており、その機能はほぼすべてのドメインで最先端です。
Gemini の機能の詳細とその仕組みを確認してください。
洗練された推理
Gemini 1.0 の洗練されたマルチモーダル推論機能は、複雑な文字情報や視覚情報を理解するのに役立ちます。そのため、膨大な量のデータの中から識別するのが難しい知識を発見することに独自のスキルを発揮します。
情報の読み取り、フィルタリング、理解を通じて何十万もの文書から洞察を抽出するその優れた能力は、科学から金融までの多くの分野でデジタルスピードで新たなブレークスルーをもたらすのに役立ちます。
ジェミニは新たな科学的洞察を解き放つ
テキスト、画像、音声などを理解する
Gemini 1.0 は、テキスト、画像、音声などを同時に認識して理解できるようにトレーニングされているため、微妙な情報をよりよく理解し、複雑なトピックに関する質問に答えることができます。そのため、数学や物理学などの複雑な主題の推論を説明するのが特に得意になります。
双子座は数学と物理学で推論を説明します
高度なコーディング
Gemini の最初のバージョンは、Python、Java、C++、Go などの世界で最も人気のあるプログラミング言語を理解し、説明し、高品質のコードを生成できます。複数の言語を超えて機能し、複雑な情報を推論する能力により、世界の主要なコーディング基盤モデルの 1 つとなっています。
Gemini Ultra は、コーディング タスクのパフォーマンスを評価するための重要な業界標準であるHumanEvalや、Web ベースの情報の代わりに作成者が生成したソースを使用する社内保持データセットである Natural2Code など、いくつかのコーディング ベンチマークで優れています。
Gemini は、より高度なコーディング システムのエンジンとしても使用できます。2 年前、私たちは、プログラミング コンテストで競争力のあるレベルのパフォーマンスに達した初の AI コード生成システムであるAlphaCodeを発表しました。
Gemini の特殊バージョンを使用して、より高度なコード生成システムAlphaCode 2を作成しました。これは、コーディングを超えて複雑な数学や理論的なコンピューター サイエンスを含む競技プログラミングの問題の解決に優れています。
双子座はコーディングと競技プログラミングに優れています
オリジナルの AlphaCode と同じプラットフォームで評価した場合、AlphaCode 2 は大幅な改善を示し、ほぼ 2 倍の問題を解決しました。また、コンテスト参加者の 85% よりも優れたパフォーマンスを示したと推定されています (AlphaCode の約 50% から増加)。プログラマが AlphaCode 2 と連携して、従うコード サンプルの特定のプロパティを定義すると、パフォーマンスがさらに向上します。
私たちは、プログラマーが、問題を推論し、コード設計を提案し、実装を支援できる共同ツールとして、高機能な AI モデルをますます使用するようになることを期待しています。これにより、アプリをリリースし、より良いサービスをより迅速に設計できるようになります。
詳細については、AlphaCode 2 技術レポートを参照してください。
より信頼性、拡張性、効率性が向上
Google は、Google 社内で設計されたTensor Processing Unit (TPU) v4 および v5e を使用して、AI に最適化されたインフラストラクチャ上で Gemini 1.0 を大規模にトレーニングしました。そして、トレーニングに最も信頼性と拡張性があり、サービスに最も効率的なモデルとなるように設計しました。
TPU では、Gemini は以前の小型で機能の低いモデルよりも大幅に高速に動作します。これらのカスタム設計の AI アクセラレータは、検索、YouTube、Gmail、Google マップ、Google Play、Android などの何十億ものユーザーにサービスを提供する Google の AI を活用した製品の中核となっています。また、世界中の企業が大規模な AI モデルをコスト効率よくトレーニングできるようになりました。
本日、最先端の AI モデルをトレーニングするために設計された、これまでで最も強力で効率的かつスケーラブルな TPU システムであるCloud TPU v5pを発表します。この次世代 TPU は Gemini の開発を加速し、開発者や企業顧客が大規模な生成 AI モデルをより迅速にトレーニングできるよう支援し、新しい製品や機能をより早く顧客に提供できるようになります。
責任と安全性を中心に構築
Google では、あらゆる活動において大胆かつ責任ある AI の推進に取り組んでいます。Google のAI 原則と製品全体にわたる堅牢な安全ポリシーに基づいて、Gemini のマルチモーダル機能を考慮した新しい保護機能を追加しています。開発の各段階で、私たちは潜在的なリスクを検討し、それらのテストと軽減に取り組んでいます。
Gemini は、バイアスや毒性を含め、これまでの Google AI モデルの中で最も包括的な安全性評価を行っています。私たちは、サイバー攻撃、説得、自律性などの潜在的なリスク領域に関する新しい研究を実施し、Gemini の導入に先立って重要な安全上の問題を特定するために、Google Research のクラス最高の敵対的テスト技術を適用しました。
内部評価アプローチの盲点を特定するために、当社は外部の専門家やパートナーからなる多様なグループと協力して、さまざまな問題にわたってモデルのストレス テストを行っています。
Gemini のトレーニング段階でコンテンツの安全性の問題を診断し、その出力がポリシーに従っていることを確認するために、 All Toxicity Promptsなどのベンチマークを使用しています。Real Toxicity Prompts は、アレン研究所の専門家によって開発された、Web から取得したさまざまな程度の毒性を持つ 100,000 のプロンプトのセットです。 AIの場合。この作品の詳細については近日公開予定です。
危害を制限するために、たとえば暴力や否定的な固定概念を含むコンテンツを識別、ラベル付け、分類するための専用の安全分類子を構築しました。堅牢なフィルターと組み合わせたこの多層アプローチは、Gemini をすべての人にとってより安全でより包括的なものにするように設計されています。さらに、事実性、根拠、帰属、裏付けなど、モデルに関する既知の課題にも引き続き取り組んでいます。
責任と安全は常にモデルの開発と展開の中心となります。これは、協力して構築する必要がある長期的な取り組みであるため、私たちは、MLCommons、Frontier Model Forum とそのAI Safety Fund、および当社のSecure AI Framework (SAIF)は、公共部門と民間部門にわたる AI システムに特有のセキュリティ リスクを軽減するために設計されました。私たちは、Gemini の開発にあたり、世界中の研究者、政府、市民社会団体と協力し続けます。
ジェミニを世界中で利用できるようにする
Gemini 1.0 は現在、さまざまな製品とプラットフォームにわたって展開されています。
Google 製品の Gemini Pro
私たちは、Google 製品を通じて何十億人もの人々に Gemini を届けています。
今日から、 Bard はより高度な推論、計画、理解などのために、Gemini Pro の微調整されたバージョンを使用します。これは、Bard の発売以来最大のアップグレードです。170 以上の国と地域で英語で利用できるようになり、近い将来、さまざまなモダリティに拡大し、新しい言語と場所をサポートする予定です。
また、Gemini を Pixel に導入します。Pixel 8 Pro は、Gemini Nano を実行するように設計された最初のスマートフォンです。Gemini Nano は、レコーダー アプリの要約や Gboard のスマート リプライなどの新機能を強化しており、WhatsApp から始まり、来年にはさらに多くのメッセージング アプリが登場します。
今後数か月以内に、Gemini は検索、広告、Chrome、Duet AI などの他の製品やサービスで利用できるようになります。
私たちはすでに Gemini in Search の実験を開始しており、品質の向上とともに米国での英語の遅延が 40% 削減され、ユーザーの検索ジェネレーティブ エクスペリエンス(SGE) が高速化されています。
Geminiで構築する
12 月 13 日より、開発者と企業顧客は、Google AI Studio またはGoogle Cloud Vertex AIの Gemini API を介して Gemini Pro にアクセスできるようになります。
Google AI Studio は、API キーを使用してアプリのプロトタイプを迅速に作成し、起動できる無料の Web ベースの開発者ツールです。フルマネージド AI プラットフォームが必要なときは、Vertex AI を使用して完全なデータ コントロールを使用して Gemini をカスタマイズでき、企業のセキュリティ、安全性、プライバシー、データ ガバナンスとコンプライアンスのための追加の Google Cloud 機能のメリットを活用できます。
Android 開発者は、Pixel 8 Pro デバイスから始まる Android 14 で利用可能な新しいシステム機能である AICore を介して、オンデバイス タスク用の最も効率的なモデルである Gemini Nano を使用して構築することもできます。AICore の早期プレビューにサインアップしてください。
Gemini Ultraは近日発売予定
Gemini Ultra については、現在、信頼できる外部関係者によるレッドチームを含む広範な信頼性と安全性のチェックを完了し、広く利用できるようにする前に、ヒューマン フィードバックからの微調整と強化学習 (RLHF) を使用してモデルをさらに改良しています。
このプロセスの一環として、来年初めに開発者と企業顧客に展開する前に、初期の実験とフィードバックのために、一部の顧客、開発者、パートナー、安全性と責任の専門家が Gemini Ultra を利用できるようにします。
来年初めには、Gemini Ultra から始まる最高のモデルと機能へのアクセスを提供する新しい最先端の AI エクスペリエンスであるBard Advancedも開始します。
Geminiの時代: イノベーションの未来を可能にする
これは AI の開発における重要なマイルストーンであり、Google がモデルの機能を迅速に革新し、責任を持って進化させ続ける中での新しい時代の始まりです。
私たちはこれまでのところ、Gemini で大きな進歩を遂げており、計画とメモリの進歩や、より良い応答を提供するためにさらに多くの情報を処理するためのコンテキスト ウィンドウの増加など、将来のバージョンでその機能をさらに拡張するために懸命に取り組んでいます。
私たちは、AI によって責任を持って強化された世界の驚くべき可能性に興奮しています。これは、創造性を高め、知識を拡張し、科学を進歩させ、世界中の何十億もの人々の生活と働き方を変革するイノベーションの未来です。