chatGPTの対抗馬!!
GoogleがAIモデルの最新版Geminiを発表しました。
説明の前に!使ってみると凄さがわかる!
Geminiには3つのモデルがあります。
GPT4の対抗馬なりゆるGemini-Ultra
GPT3.5を超えるらしいGemini-Pro
モバイルに特化したGemini-Nano
現在利用できるのはGemini Proまで
googleの言語設定を英語にすると利用できました
なにがすごいの?
マルチモーダル性
ChatGPTは主にテキストベースの対話を生成するのに対し、Geminiは画像、オーディオ、ビデオを含む多様なモーダルに対応している、らしい。
公式の情報と、実際に試した結果をどうぞ!
あくまで、googleが提供してる情報であることに注意。
Gemini-Ultraはまだ使用できないため、検証に用いたのはGemini-Proです。
テキスト
ベンチマーク | Gemini Ultra | GPT-4 |
---|---|---|
MMLU | 90.0% | 86.4% |
Gemini:32パターンを考えてからファイナルアンサーを出す方式
GPT:例題を5問見てから解答する方式
入力:OpenAIのchat-GPTとGoogleのGeminiどちらが優れていますか?
GPT-4は2023年4月時点でのトレーニングデータなので、Geminiの情報を持ってなさそう。
コード
こちらの記事を参考に、GPT4とGeminiの比較をしてみた。
入力
以下に示すのはプログラミングの問題文とその問題の解説と正解コード例及び判定対象のスキルです。
この問題を解くのに該当のスキルはどの程度必要ですか?
evaluation として0-4で表してください。 基準は以下とします。
0: この問題では必要ない。
1: 解法によっては必要になる場合がある。
2: 簡単に実装できる必要がある。
3: 業務レベルで実装できる必要がある。
4: 応用的に実装できる必要がある。
全て日本語で答えてください。
evaluation を求めるにあたり、以下の手順を踏んでください。
1, 指定された Skill がどんなスキルであり、どのような場面で役立つか把握する。
2, この問題との関連性を考える。この過程での考察を reason として下さい。
3, reason を元に、 evaluation を決定する。
"skill"には Skill を入れてください。
スキル評価とその設定理由は下記形式で出力してください。
{ "skill" : string, "evaluation" : integer, "reason" : string }
Skill : { 推定するスキル名 }
Problem : 0 と 1 の 2 種類の文字からなる文字列 s が与えられます。
s に含まれる 0 を 1 に、1 を 0 に置き換えた文字列を出力してください。Explanation:
この問題は、
・入力から文字列を読み込む
・文字列の文字を対応する文字に変更する
・変更された文字列を出力する
ことができれば解くことができます。
Correct Code :
#include <iostream>
#include <string>
using namespace std;
int main() {
string s;
cin >> s;
for (char c : s)
if (c == '0')
cout << '1';
else
cout << '0';
cout << endl;
return 0;
}
{
"skill": "文字列操作",
"evaluation": 2,
"reason": "文字列の読み込みと文字の置換を行う必要があるため"
}
{
"skill" : "文字列操作",
"evaluation" : 2,
"reason" : "この問題は基本的な文字列の読み込みと簡単な文字の置き換えを行うことで解決可能であり、
高度な技術は必要としないが、基礎的な文字列操作の技能は必要です。"
}
簡易的なプログラムの理解はどちらも問題ない印象。
より複雑なアルゴリズムについては、Gemini-Ultraがでてから比較して見る必要がありそう。
画像
YOLO v5のディレクトリ画像から文字を抽出してみた。
この画像が示すディレクトリ一覧をテキストで出力してください
Gemini
画像に示されているディレクトリ一覧は次のとおりです。
github
classify
data
models
settings
users
libraries
resources
tools
GPT-4
.github
Update ci-testing.yml (#12404)
classify
Update YouTube URL https://youtu.be/LNwODJXcvt4 (#12106)
data
remove objects with iscrowd=True in Objects365 (#11788)
models
Bump torch>=1.8.0 and torchvision>=0.9.0 (#11970)
segment
Update YouTube URL https://youtu.be/LNwODJXcvt4 (#12106)
utils
[Snyk] Security upgrade ubuntu from 23.04 to mantic-20231011 (#12...
.dockerignore
Add .git to .dockerignore (#8815)
.gitattributes
git attrib
.gitignore
Ignore *_paddle_model/ dir (#10745)
.pre-commit-config.yaml
[pre-commit.ci] pre-commit suggestions (#12335)
CITATION.cff
Update LICENSE to AGPL-3.0 (#11359)
CONTRIBUTING.md
Add links to https://docs.ultralytics.com/help/ (#11462)
LICENSE
Update LICENSE to AGPL-3.0 (#11359)
README.md
Add Hindi फीचर and Arabic ميزة Docs translations (#12394)
README.zh-CN.md
Add Hindi फीचर and Arabic ميزة Docs translations (#12394)
benchmarks.py
Fix the bug that tensorRT batch_size does not take effect (#11672)
detect.py
Update YouTube URL https://youtu.be/LNwODJXcvt4 (#12106)
export.py
ONNX export Path to str() (#12177)
hubconf.py
Update check_requirements() ROOT (#11557)
requirements.txt
[Snyk] Fix for 5 vulnerabilities (#12325)
setup.cfg
Update setup.cfg (#11814)
train.py
Increase NCCL timeout to 3 hours (#12345)
tutorial.ipynb
Created using Colaboratory (#12405)
val.py
add non-fixed path option to coco's instances_val2017.json (#11860)
使ってみた感想 Geminiはレスポンスが速い!!
モデル&トレーニングデータ
Gemini開発チームの論文からの抜粋です
モデル
-
基盤: Geminiモデルは、Transformerベースのデコーダを使用している。
これにより、様々なモーダルのデータ処理と統合が可能。 - モーダル処理: Geminiは、テキスト、画像、オーディオ、ビデオなど、多様なモーダルのデータを処理できるように設計されている。
- 変換能力: これらの異なるモーダルのデータは、内部的に一貫した表現に変換され、モデルが処理しやすい形に統合されている。
トレーニングデータ
-
ハードウェア:
GoogleのTPUv5eとTPUv4を使用。 -
使用データ:
ウェブドキュメント、書籍、コードからのデータ
さらに、画像、オーディオ、ビデオデータ -
パラメータ数
1.56兆個。
これは、Google AIが開発した大規模言語モデル「LaMDA」のパラメータ数の約11倍 -
データ数
約1.56兆。
Gemini Ultraの性能、気になる。
参考文献