はじめに
生成AIウォッチャーの@Yam3939 です。
今年は生成AIの1年でした。
欧米の人はクリスマス前は仕事しないからGeminiは今年は出ない、と思っていましたが、知ったかぶりでした。
Google Geminiがリリースされました。
見たらすでにGeminiの記事は2つも投稿されていて、これが3つ目です。
皆さん、速いですねー。
Geminiアドベントカレンダーがあるんだー。
生成AIウォッチャーとか言いながら私は地上波のTVのニュースでGenimiリリースを知りました。それじゃだめじゃん・・・
Google Geminiについてわかっていること
- デモは映像認識
- Geminiは3部構成
- Gemini Ultra
- Gemini Pro
- Gemini Nano
- Gemini Ultra はGPT-4を凌駕する性能
- マルチモーダルを基本にした大規模言語モデルでテキスト、音声、画像、映像を扱える
- MMLU(57科目び数学、歴史、法律、医学、倫理など57科目の大規模マルチタスク言語理解ベンチマークでの比較結果)
- Gemini Ultra 90.0%
- (人間の専門家 89.8%)
- GPT-4 86.4%
- Gemini Pro 79.1%
- PaLM-2 78.3%
- GPT-3.5 70%
- (Gemini Ultraの有効数字が4桁でGPT-3.5が2桁の理由は謎)
- Gemini NanoはPixel 8 Proで動く。Pixel 8 Proのプロセッサーである「Tensor G3」に最適化されている。Tensor G3はPixel 8にも搭載されているがメモリ容量の問題で載らない。
GPT-4を超える映像認識のデモ
GPT-4を超えるって本当とか思っていましたが、Google公式のデモ動画のGemini Ultraのデモを見ると本当にすごいです。流石にGoogle、これはGPT-4を超えたかもと思う内容でした。
- 手書きで線を書いたらあひる。
- 色を青く塗ったら違うという
- 押して鳴かせるとゴムのあひるのお風呂のおもちゃだと認識。
- コップのしたにものを隠してコップを動かしても当てられる
- じゃんけんも認識
- 青と桃色の毛糸から作れるものを画像生成
- みかんの写真を健康的な食品と言う
- 手書きの熊とあひるに続く道から熊へつながらないほうを選ぶ判断をする
- 手書きの太陽と地球と月の順番を言える
- 手書きの坂の車でどちらが空気抵抗が少なくて速いかを言える
- 手書きギターをみてギターの音を、アンプをつなぐとエレキギターの音を生成できる
昨日公開なのにすでに124万ビューで3.8万いいねがついています。
使い方
- 今使えるGeminiはGemini ProでBardから使える
- 言語設定を英語にする必要がある
- 画像認識も使える
- Gemini Ultraは来年 Bard Advancedから使えるようになる(有料かもしれない?)
エコシステム
すごい大規模言語モデルを作ってもすでにAIエンジニアはGPTエコシステムに組み込まれているからダメじゃん、とか思っていましたが、エコシステムも本気です。
- 2023/12/13に開発者会議でGemini APIを公開予定
- スマホ(Pixel 8 Pro)に搭載(ネットがなくても動く)
- メモリ量の関係で他のPixelには載らないようです
API, SDK, スマホアプリでGPTを追撃するようです。
現時点での優劣
Gemini Ultraの公開は来年です。現時点ではBardからGemini Proを使えるということで、無料で使うなら無料版GPT-3.5には勝っている、ということです。
OpenAIはGPT-6もGPT-7も商標登録申請しているらしいので、2024年にGamini Ultraが公開できるまでにGPT-5がどこまで詰められるのかですね。
映像理解が注目されやすいですが、本丸は論理思考能力です。
利用者にリリースされているレベルでの星取表は以下のとおり:
項目 | Gemini Ultra | GPT-4 Turbo |
---|---|---|
デモ | 〇 | × |
論文上の性能 | 〇 | × |
対話AI | × | 〇 |
API | × | 〇 |
SDK | × | 〇 |
オフィスアプリ連携 | × | 〇 |
アプリストア | × | × |
スマホアプリ | × | 〇 |
対話AIはGemini Ultraに〇でもいいのかなー。でも触れてないしなあ。
2023/12/13から Google AI Studio か Google Cloud Vertex AIでAPIは公開されますが、Gemini Proだけなので、APIは×にしました。
開発者会議が楽しみです。
おわりに
q*仮説の話が出て、OpenAIもGoogle DeepMindも人間の100倍賢いAIデータでAIが自己学習する大規模言語モデルを開発中という噂もありました。汎用人工知能の宇宙戦に入る前にGoogleは地上戦でもOpenAIと戦う気満々です。デモビデオでGoogle (Google DeepMind)の本気を見た気がします。
来週の開発者会議が楽しみです。
参考文献
- Google公式 Hands-on with Gemini: Interacting with multimodal AI https://www.youtube.com/watch?v=UIZAiXYceBI 6m22s 2023年
- 「専門家を超えるAI」 グーグルの次世代生成AIモデル「Gemini」登場 https://www.watch.impress.co.jp/docs/news/1552601.html 2023年
- 【超速報】ChatGPkaTを超えるGoogleの世界最強AI「Gemini」爆誕!! https://www.youtube.com/watch?v=o4yYLSJvIw8 21m10s 2023年
- Gemini is Here! (And It's Better Than GPT-4?) https://www.youtube.com/watch?v=lgBAS9CFYlE 24m45s 2023年
- Gemini アドベントカレンダー https://qiita.com/advent-calendar/2023/gemini
- Google for Developers: How it’s Made: Interacting with Gemini through multimodal prompting https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
- Gemini: A Family of Highly Capable Multimodal Models https://paperswithcode.com/paper/gemini-a-family-of-highly-capable-multimodal
-【速報】Google Gemini登場!GPT-4よりかなり賢いらしい?マルチモーダルに力点! https://www.youtube.com/watch?v=nSpTH-eHb1Q