オンライン体験アドレス:https://chrome-ai.edgeone.app
Chrome内蔵AIは最初に申請フォームを記入する必要があり、Chromeの開発者版でのみ体験できました。現在、ユーザーは簡単な手順で正式版でこの機能を有効にできます。
「ウェブページの指示に従って設定を完了すると、デバッグページにアクセスできるようになります。ここでは、コードを迅速に修正して、ローカル AI の強力な機能を体験できます。
注意:Chrome API はまだドラフト段階であり、かなりの変更がある可能性があります。本ウェブページは Chrome 129 バージョンを基に開発されており、Chrome 128 バージョンの API とは互換性がありません。」
なぜ Chrome にローカル AI があるのか?
- 過去の AI アプリケーションの使用において、私たちは通常、サーバー側のソリューションに依存することが習慣化しており、これが一部のユーザーにプライバシーへの懸念を引き起こしています。
- 一部の開発者は AI モデルをブラウザに移行しようと試みていますが、モデルのサイズは通常、ウェブページの中央値の約千倍です。これらのモデルはウェブサイトの前に共有されないため、異なるウェブページにアクセスするたびにこれらのモデルを再ダウンロードする必要があり、ユーザーのリソースを非常に消耗するソリューションです。
そこで Chrome はブラウザに Gemoni Nano を統合し、標準的な Web プラットフォーム API を公開しました。これは、ほとんどのデスクトップおよびノートパソコンで実行することを目的としています。Chrome 内蔵の AI の能力を活用することで、あなたのウェブサイトは独自の AI モデルをデプロイしたり管理したりすることなく、迅速に AI ドリブンなタスクを実行できます。
現在、プライバシーが確保されたモードでローカルの大規模なモデルを直接ウェブサイトで呼び出し、質問応答、翻訳などの機能を利用できます。
Chrome 内蔵 AI の Web 開発者にとっての利点は?
- デプロイの簡便さ:ブラウザが自動的にモデルを配布するため、デバイスの能力を考慮しモデルの更新を管理します。これにより、ネットワークを通じて大型モデルをダウンロードまたは更新する責任を負う必要がなく、ストレージ解放、ランタイムメモリ制限、サービスコストなどの他の問題についても心配する必要がありません。
- ハードウェアアクセラレーションへのアクセス:ブラウザの AI ランタイムは最適化されており、利用可能なハードウェアリソース(GPU、NPU、または CPU にフォールバック)を最大限に活用できます。したがって、あなたのアプリケーションはあらゆるデバイスで最適なパフォーマンスを実現できます。
デバイス上での AI 実行の利点は?
- 敏感なデータのローカル処理:デバイス上の人工知能は、プライバシー保護を高めることができます。たとえば、敏感なデータを処理している場合、ユーザーにエンドツーエンドの暗号化を利用した AI 機能を提供できます。
- 敏捷なユーザー体験:場合によっては、サーバー間の往復を省くことにより、ほぼ即時の結果を提供できます。デバイス上の人工知能は、利用可能な機能と最適でないユーザー体験との間の重要な差異を生み出すことができます。
- より広範な AI アクセス:ユーザーのデバイスは、一部の処理負担を軽減する代わりに、より多くの機能を利用することができます。たとえば、高度な AI 機能を提供する場合、デバイス上の AI を通じてこれらの機能をプレビューし、潜在的な顧客にあなたの製品の利点を理解してもらうことができ、コストを増やすことなく実現できます。このハイブリッドアプローチは、特に頻繁に使用されるユーザーフローにおいて推論コストを管理するのにも役立ちます。
- オフライン AI 利用:ユーザーは、インターネット接続がない場合でも AI 機能にアクセスできます。つまり、あなたのウェブサイトやネットワークアプリケーションは、オフラインまたは不安定なネットワーク接続の状況でも正常に機能できます。
ブラウザアーキテクチャと API
主にタスク API を通じて内蔵の AI 機能にアクセスします。タスク API は、割り当てられた最適なモデルを対象に推論を実行することを目的としています。
Chrome では、これらの API は微調整または専門モデルを用いて Gemini Nano に対して推論を実行することを目的としています。Gemini Nano はほとんどの現代デバイスでローカルに実行されるように設計されており、特に要約、書き換え、分類などの言語関連のユースケースに最適です。
重要な用語: 微調整 は、新たなモデルをダウンロードすることなく、特定のタスクを実行するためのモデルの能力を動的に向上させる方法です。
二種類の API を提供します:
- プロンプト API:自然言語で表現された任意のタスクを内蔵の大規模言語モデル(Chrome の Gemini Nano)に送信します。
- 微調整(LoRA)API:低ランク適応微調整を使用してモデルの重みを調整し、内蔵の LLM のタスクに対するパフォーマンスを向上させます。
ユーザーに提供できる能力は?
- 人工知能を活用したコンテンツ消費:要約、翻訳、内容に関する質問への回答、分類および特徴分析を含みます。
- 人工知能支援によるコンテンツ創作:執筆支援、校正、文法の訂正及び書き直しを含みます。
要約API:
- 会議に遅れて参加したり、完全に見逃したユーザーのための会議記録の概要。
- 顧客関係管理(CRM)における対話の要点。
- 複数の製品レビューの文または段落単位での要約。
- 長文記事の要点を示し、読者が記事の関連性を判断するのを助けます。
- フォーラム内での質問を要約し、専門家が専門分野に最も関連性の高い質問を見つけやすくします。
執筆と書き直しのAPI:
- 初期のアイデアとオプションの背景に基づいて執筆します。例えば、銀行に正式なメールを書いて信用枠の増加を求める背景が長期の顧客である場合。
- 既存のコンテンツを最適化するために、テキストの長さやトーンを調整します。たとえば、短いメールを書き直して、より丁寧で正式に聞こえるようにすることができます。