Summarize and Translate with Gemini(Geminiによる要約と翻訳)というChrome拡張機能をリリースしました。Chrome Web Storeからインストールできます。またGitHubでソースコードを公開しています。
YouTubeのビデオにキャプションがある場合は、キャプションを要約します。
利用にはGemini APIキーが必要です。Gemini APIキーはGoogle AI for Developersのページで取得できます。
Gemini Proを選定した理由
この拡張機能ではバックエンドにGemini Proを使用しています。Gemini Proを選定した理由は以下の四点です。
- 入力トークン数が十分に大きいこと
- コストが安いこと
- 生成品質が許容範囲であること
- 応答が早いこと
以下の表は言語モデルごとに入力トークン数と入力コストをまとめたものです。
言語モデル | 入力トークン数 | 入力コスト | 備考 |
---|---|---|---|
Gemini 1.0 Pro Free of charge | 30K | 無料 | 2024年初頭まで |
Gemini 1.0 Pro Pay-as-you-go | 30K | $0.125/MChars | 準備中 |
Claude 3 Haiku | 200K | $0.25/MTokens | 準備中 |
Claude 3 Sonnet | 200K | $3/MTokens | - |
Claude 3 Opus | 200K | $15/MTokens | - |
GPT-3.5 Tubo | 16K | $0.5/MTokens | gpt-3.5-turbo-0125 |
GPT-4 Turbo | 128K | $10/MTokens | gpt-4-0125-preview |
単位がバラバラで分かりづらいので、日本語における入力文字数と入力コストに換算しました。Gemini Proは日本語の格納効率が良いのでまずまず長い文章を入力でき、有料化後においてもコストが抜群に安いことが分かります。
言語モデル | 入力文字数 | 入力コスト | 備考 |
---|---|---|---|
Gemini 1.0 Pro Free of charge | 63K | 無料 | 2024年初頭まで |
Gemini 1.0 Pro Pay-as-you-go | 63K | $0.125/MChars | 準備中 |
Claude 3 Haiku | 235K | $0.212/MChars | 準備中 |
Claude 3 Sonnet | 235K | $2.549/MChars | - |
Claude 3 Opus | 235K | $12.747/MChars | - |
GPT-3.5 Tubo | 17K | $0.479/MChars | gpt-3.5-turbo-0125 |
GPT-4 Turbo | 134K | $9.575/MChars | gpt-4-0125-preview |
生成品質についてはどうでしょうか。Gemini ProはAnthropic、OpenAIのモデルに比べてハルシネーションが目立つのですが、要約、翻訳といったタスクは与えた情報を変換するだけですのでハルシネーションの心配はそれほどありません。
冒頭に挙げたスクリーンショットと同じタスクをClaude 3 Opusで実行してみましょう。
- 要約
- Google OneのAIプレミアムプランでは、Gmail、Docs、Slides、Sheets、Meetで Geminiを使用してより創造的かつ生産的になることができる。
- Google Oneは2018年の開始以来、1億人以上がサブスクライブし、Google Photosやカレンダーの高度な機能を利用している。
- AIプレミアムプランでは、最大かつ最も有能なAIモデルである1.0 Ultraを使用したGemini Advancedにアクセスできる。
- Gmail、Docs、Slides、Sheets、Meetで直接Geminiの機能を利用でき、タブやアプリを切り替えることなく作業を進められる。
- Googleワークスペースではユーザーデータの保護とプライバシーを最優先し、許可なくワークスペース外の他のシステムの基盤となる生成AIや大規模な言語モデルの訓練や改善にデータを使用しない。
- AIプレミアムプランのメンバーは、月額$19.99で2TBのストレージやその他のGoogle Oneの特典も利用できる。
- 要約 - YouTube
- Googleは、世界中の情報を整理し、誰もがアクセスできるようにするという使命を持っており、AIがその実現に向けた重要なテクノロジーだと考えている。
- Geminiは、マルチモーダルな対話が可能な高性能のAIモデルで、テキスト、コード、音声、画像、動画などあらゆる種類の入出力に対応し、多くの分野で専門家と同等の能力を示している。
- Googleは、安全性と責任を最初から組み込んだポリシーを策定し、厳格なテストを実施することで、Geminiの潜在的な有害性に対処しながら、世界中の人々にAIを利用してもらう機会を提供しようとしている。
- 翻訳
Google Oneが2018年に初めて開始されて以来、1億人以上の人々がGoogleをより活用するために登録しており、Google Photos、Meet、Calendarの追加ストレージと高度な機能が含まれています。そして、ほんの数週間前、Google One AIプレミアムプランを発表しました。このプランでは、現在広く利用可能な最大かつ最も高性能のAIモデルである1.0 Ultraを使用した新しいエクスペリエンスであるGemini Advancedへのアクセスが提供されます。
Claude 3 Opusの生成品質は圧倒的ですね…。できればClaude 3 Opusを使っていきたいところですが、問題はこの生成品質を得るために100倍のコストがかかるという点です。特に要約タスクでは入力トークン数が大きくなりがちなので100倍のコストはさすがに看過できません。しばらく悩みましたが個人の作業効率化のための要約、翻訳であればGemini Proの生成品質はぎりぎり許容できると判断しました。
またClaude 3 OpusやGPT-4 Turboなどの上級モデルは応答にかなりの時間がかかるのでユーザー体験があまり良くありません。Gemini Proは試した中ではGPT-3.5 Turboの次に応答が早く、ここがプラス評価となりました。
というわけでLLMは目的に応じて適切に選択しましょうという言われてみれば当たり前の話題でした。こうして悩める程度にLLMの選択肢が増えてきたことはうれしいですね。Summarize and Translate with Geminiが皆さまの作業効率化に少しでも貢献できれば幸いです。