LoginSignup
4
3

要約、翻訳ツールにGemini Proを選定した話

Posted at

Summarize and Translate with Gemini(Geminiによる要約と翻訳)というChrome拡張機能をリリースしました。Chrome Web Storeからインストールできます。またGitHubでソースコードを公開しています。

ワンクリックでウェブページの要約ができます。
スライド4.PNG

YouTubeのビデオにキャプションがある場合は、キャプションを要約します。
スライド6.PNG

選択範囲の翻訳ができます。
スライド8.PNG

利用にはGemini APIキーが必要です。Gemini APIキーはGoogle AI for Developersのページで取得できます。

Gemini Proを選定した理由

この拡張機能ではバックエンドにGemini Proを使用しています。Gemini Proを選定した理由は以下の四点です。

  • 入力トークン数が十分に大きいこと
  • コストが安いこと
  • 生成品質が許容範囲であること
  • 応答が早いこと

以下の表は言語モデルごとに入力トークン数と入力コストをまとめたものです。

言語モデル 入力トークン数 入力コスト 備考
Gemini 1.0 Pro Free of charge 30K 無料 2024年初頭まで
Gemini 1.0 Pro Pay-as-you-go 30K $0.125/MChars 準備中
Claude 3 Haiku 200K $0.25/MTokens 準備中
Claude 3 Sonnet 200K $3/MTokens -
Claude 3 Opus 200K $15/MTokens -
GPT-3.5 Tubo 16K $0.5/MTokens gpt-3.5-turbo-0125
GPT-4 Turbo 128K $10/MTokens gpt-4-0125-preview

単位がバラバラで分かりづらいので、日本語における入力文字数と入力コストに換算しました。Gemini Proは日本語の格納効率が良いのでまずまず長い文章を入力でき、有料化後においてもコストが抜群に安いことが分かります。

言語モデル 入力文字数 入力コスト 備考
Gemini 1.0 Pro Free of charge 63K 無料 2024年初頭まで
Gemini 1.0 Pro Pay-as-you-go 63K $0.125/MChars 準備中
Claude 3 Haiku 235K $0.212/MChars 準備中
Claude 3 Sonnet 235K $2.549/MChars -
Claude 3 Opus 235K $12.747/MChars -
GPT-3.5 Tubo 17K $0.479/MChars gpt-3.5-turbo-0125
GPT-4 Turbo 134K $9.575/MChars gpt-4-0125-preview

生成品質についてはどうでしょうか。Gemini ProはAnthropic、OpenAIのモデルに比べてハルシネーションが目立つのですが、要約、翻訳といったタスクは与えた情報を変換するだけですのでハルシネーションの心配はそれほどありません。

冒頭に挙げたスクリーンショットと同じタスクをClaude 3 Opusで実行してみましょう。

  • 要約
  1. Google OneのAIプレミアムプランでは、Gmail、Docs、Slides、Sheets、Meetで Geminiを使用してより創造的かつ生産的になることができる。
  2. Google Oneは2018年の開始以来、1億人以上がサブスクライブし、Google Photosやカレンダーの高度な機能を利用している。
  3. AIプレミアムプランでは、最大かつ最も有能なAIモデルである1.0 Ultraを使用したGemini Advancedにアクセスできる。
  4. Gmail、Docs、Slides、Sheets、Meetで直接Geminiの機能を利用でき、タブやアプリを切り替えることなく作業を進められる。
  5. Googleワークスペースではユーザーデータの保護とプライバシーを最優先し、許可なくワークスペース外の他のシステムの基盤となる生成AIや大規模な言語モデルの訓練や改善にデータを使用しない。
  6. AIプレミアムプランのメンバーは、月額$19.99で2TBのストレージやその他のGoogle Oneの特典も利用できる。
  • 要約 - YouTube
  1. Googleは、世界中の情報を整理し、誰もがアクセスできるようにするという使命を持っており、AIがその実現に向けた重要なテクノロジーだと考えている。
  2. Geminiは、マルチモーダルな対話が可能な高性能のAIモデルで、テキスト、コード、音声、画像、動画などあらゆる種類の入出力に対応し、多くの分野で専門家と同等の能力を示している。
  3. Googleは、安全性と責任を最初から組み込んだポリシーを策定し、厳格なテストを実施することで、Geminiの潜在的な有害性に対処しながら、世界中の人々にAIを利用してもらう機会を提供しようとしている。
  • 翻訳

Google Oneが2018年に初めて開始されて以来、1億人以上の人々がGoogleをより活用するために登録しており、Google Photos、Meet、Calendarの追加ストレージと高度な機能が含まれています。そして、ほんの数週間前、Google One AIプレミアムプランを発表しました。このプランでは、現在広く利用可能な最大かつ最も高性能のAIモデルである1.0 Ultraを使用した新しいエクスペリエンスであるGemini Advancedへのアクセスが提供されます。

Claude 3 Opusの生成品質は圧倒的ですね…。できればClaude 3 Opusを使っていきたいところですが、問題はこの生成品質を得るために100倍のコストがかかるという点です。特に要約タスクでは入力トークン数が大きくなりがちなので100倍のコストはさすがに看過できません。しばらく悩みましたが個人の作業効率化のための要約、翻訳であればGemini Proの生成品質はぎりぎり許容できると判断しました。

またClaude 3 OpusやGPT-4 Turboなどの上級モデルは応答にかなりの時間がかかるのでユーザー体験があまり良くありません。Gemini Proは試した中ではGPT-3.5 Turboの次に応答が早く、ここがプラス評価となりました。

というわけでLLMは目的に応じて適切に選択しましょうという言われてみれば当たり前の話題でした。こうして悩める程度にLLMの選択肢が増えてきたことはうれしいですね。Summarize and Translate with Geminiが皆さまの作業効率化に少しでも貢献できれば幸いです。

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3