35
31

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DeepAelurus(NPO法人AI開発推進協会)Advent Calendar 2023

Day 10

「Gemini」:Googleの新AI、実際のところは?

Last updated at Posted at 2023-12-10

衝撃的な紹介動画

GoogleからGPT-4を超える性能のマルチモーダル生成AI「Gemini」が公開されました。

衝撃の動画はこちら

(引用)
Gemini は、テキスト、画像、オーディオ、ビデオ、コード全体で推論できる、ネイティブのマルチモーダル AI モデルです。このビデオでは、ジェミニとのお気に入りのやり取りをいくつか紹介します。詳細を確認してモデルを試してみてください: https://deepmind.google/gemini

How it’s Made: Interacting with Gemini through multimodal prompting

こちらには「We gave Gemini sequences of different modalities — image and text in this case — and had it respond by predicting what might come next.」「All the user prompts and outputs in the video are real, shortened for brevity. 」と記載あり。あくまでデモ、のようですね。

Gemini comes in three sizes

Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズ

  • Pro:生成AIボット 「Bard」の英語版に搭載されている。
  • Nano:GoogleのハイエンドAndroidスマートフォン「Pixel 8 Pro」で稼働を開始。
  • Ultra:2024年初めには「Bard Advanced」で使えるようになる。

pro.png
引用元:blog.google(Bard gets its biggest upgrade yet with Gemini)

Ultra.png
引用元:blog.google(Introducing Gemini: our largest and most capable AI model)

Gemini Proを試してみる

というわけで、Googleの会話型AI「Bard」英語版でGemini Proを利用できるようです(ブラウザの言語設定を英語に変更してアクセスするだけで無料で利用できます)。
(参考:WIRED記事

Bard.png
Bard

技術レポート

table2.png

Text Benchmarkをみると、GPT-4を超えるには Ultra(最上位モデル)が必要?

Gemini Pro を AI Studio で使える

12月13日からは、Google AI StudiやVertex AIのGemini APIを介してGemini Proを利用可能になるようです(AI Studioでの利用イメージはこちら)。

付録)Gemini Pro の実力をみてみる①(日本語の理解)

言語理解ベンチマークには、JGLUE日本語版 lm-evaluation- harnessNejumiThe Rakuda Benchmarkなどがありますが、今回はELYZA Tasks 100の1つの例で試してみます。

[Bard(Gemini Pro)]

sample1.png

[ChatGPT4]

sample2.png

[Elyza]

sampleE.png
引用元:ELYZA-tasks-100

[その他のモデル]

sample3.png
引用元:ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

この例は、GPT-4も間違う問題ですが、Gemini Proも間違ってしまいました。

付録)Gemini Pro の実力をみてみる②(知識)

[Bard(Gemini Pro)]

sample20.png

[ChatGPT4]

sample21.png

BardもGPT-4も検索機能はあるはずですが、(音声認証は認められていないと思いますので)今回のケースではGPT-4のほうが有利だったようです。

付録)Gemini Pro の実力をみてみる③(音声入出力)

speak.png

右下のマイクで発話し、Submitを押下。日本語はうまく聞き取ってもらえませんでした。

テキストの出力が完了してから、数秒後に右上のスピーカーマークが出現しました。Proだとタイムラグがありそうですが、音声の質は動画と同等のレベルに感じました。

その他

AlphaCode 2 Technical Report

まとめ

Ultraをデモ動画のように使える日が早くきてほしいですね。GPT-4は少しかしこまった?わざとらしい?表現がたまに気になりますが、Geminiと友達のようにテンポよくラフに会話できると個人的にはうれしいです。

参考・引用

https://deepmind.google/technologies/gemini/#introduction
https://www.youtube.com/watch?v=UIZAiXYceBI&feature=youtu.be
https://twitter.com/OriolVinyalsML/status/1732885990291775553
https://blog.google/products/bard/google-bard-try-gemini-ai/
https://blog.google/technology/ai/google-gemini-ai/
https://wired.jp/article/how-to-use-google-gemini-ai-bard-chatbot/
https://bard.google.com/
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
https://huggingface.co/datasets/elyza/ELYZA-tasks-100?row=81
https://it.impress.co.jp/articles/-/25698

35
31
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
35
31

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?