衝撃的な紹介動画
GoogleからGPT-4を超える性能のマルチモーダル生成AI「Gemini」が公開されました。
衝撃の動画はこちら
(引用)
Gemini は、テキスト、画像、オーディオ、ビデオ、コード全体で推論できる、ネイティブのマルチモーダル AI モデルです。このビデオでは、ジェミニとのお気に入りのやり取りをいくつか紹介します。詳細を確認してモデルを試してみてください: https://deepmind.google/gemini
How it’s Made: Interacting with Gemini through multimodal prompting
こちらには「We gave Gemini sequences of different modalities — image and text in this case — and had it respond by predicting what might come next.」「All the user prompts and outputs in the video are real, shortened for brevity. 」と記載あり。あくまでデモ、のようですね。
Gemini comes in three sizes
Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズ
- Pro:生成AIボット 「Bard」の英語版に搭載されている。
- Nano:GoogleのハイエンドAndroidスマートフォン「Pixel 8 Pro」で稼働を開始。
- Ultra:2024年初めには「Bard Advanced」で使えるようになる。
引用元:blog.google(Bard gets its biggest upgrade yet with Gemini)
引用元:blog.google(Introducing Gemini: our largest and most capable AI model)
Gemini Proを試してみる
というわけで、Googleの会話型AI「Bard」英語版でGemini Proを利用できるようです(ブラウザの言語設定を英語に変更してアクセスするだけで無料で利用できます)。
(参考:WIRED記事)
技術レポート
Text Benchmarkをみると、GPT-4を超えるには Ultra(最上位モデル)が必要?
Gemini Pro を AI Studio で使える
12月13日からは、Google AI StudiやVertex AIのGemini APIを介してGemini Proを利用可能になるようです(AI Studioでの利用イメージはこちら)。
付録)Gemini Pro の実力をみてみる①(日本語の理解)
言語理解ベンチマークには、JGLUEや日本語版 lm-evaluation- harness、Nejumi、The Rakuda Benchmarkなどがありますが、今回はELYZA Tasks 100の1つの例で試してみます。
[Bard(Gemini Pro)]
[ChatGPT4]
[Elyza]
引用元:ELYZA-tasks-100
[その他のモデル]
引用元:ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編
この例は、GPT-4も間違う問題ですが、Gemini Proも間違ってしまいました。
付録)Gemini Pro の実力をみてみる②(知識)
[Bard(Gemini Pro)]
[ChatGPT4]
BardもGPT-4も検索機能はあるはずですが、(音声認証は認められていないと思いますので)今回のケースではGPT-4のほうが有利だったようです。
付録)Gemini Pro の実力をみてみる③(音声入出力)
右下のマイクで発話し、Submitを押下。日本語はうまく聞き取ってもらえませんでした。
テキストの出力が完了してから、数秒後に右上のスピーカーマークが出現しました。Proだとタイムラグがありそうですが、音声の質は動画と同等のレベルに感じました。
その他
まとめ
Ultraをデモ動画のように使える日が早くきてほしいですね。GPT-4は少しかしこまった?わざとらしい?表現がたまに気になりますが、Geminiと友達のようにテンポよくラフに会話できると個人的にはうれしいです。
参考・引用
https://deepmind.google/technologies/gemini/#introduction
https://www.youtube.com/watch?v=UIZAiXYceBI&feature=youtu.be
https://twitter.com/OriolVinyalsML/status/1732885990291775553
https://blog.google/products/bard/google-bard-try-gemini-ai/
https://blog.google/technology/ai/google-gemini-ai/
https://wired.jp/article/how-to-use-google-gemini-ai-bard-chatbot/
https://bard.google.com/
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
https://huggingface.co/datasets/elyza/ELYZA-tasks-100?row=81
https://it.impress.co.jp/articles/-/25698