先週金曜日、GoogleがGeminiの最上位モデル「Gemini Ultra」をリリースしましたので、私も登録して(月額20ドル)試しました。
Googleが公開された論文によると、GeminiUltraはベンチマークでGPT-4を上回るスコアを獲得していますが、実際はそうでもないと感じました。
基本的なタスク(要約、数学問題、コード生成など)を色々試してみましたが、個人的な感想としてはGPT-4の方が回答よかったです。
特に、画像生成や認識に関しては、問題が複雑で抽象的になると、GPT4のようにうまく理解することはできなかったです。
1.複雑な画像生成
例えば、私パワポスライドを作る際に、具体的なイメージが思い浮かばない時はよくChatGPTに聞きました。(下はChatGPTに”A”と”B”を比較する際によく使われるスライドイメージを作成してもらった例です。)
⇧のようなイメージ図を生成することができます。これは初回の出力であるため、そこまで良いものを生成できてないですが、ChatGPTが要求されたタスクを理解していることはわかります。
Gemini Ultraにも同じ質問を試してみました。(Gemini Ultraの画像生成は現在日本語対応していないので、英語でprompt文を投げました。スクリーンショットには含まれていませんが、ChatGPTに投げた質問と全く同じものでした。)生成された画像を見ると、質問の意図を正確に理解していないようですね。
ちなみに、この”スライドのイメージを作る”タスクは私が試した限りでは、GPT4以外できるLLMはなかったです。
2.Googleツールとの連携
Gemini Ultraが特に優れていると感じた点は、Googleツールと連携して使えることです。(gmail,colab,driveなど)
Googleツールのagentとして使ってみると非常に使いやすかったです。
例えば、Gmail内のメールを検索して要約したり、Colabに保存されているコードを検索して修正するなどの操作を試しましたが、特に間違いなく実行できました。(langchain経由でGoogleAPI使うagentよりも処理速度、精度が高かったです。)
下記のGemini UltraとGPT4を比較する記事もあります、興味ある方ご覧ください:
END