背景
- ChatGPT4経由での画像認識(GPT4V)とGemini Ultra1.0(Gemini Adancedのコンソール経由)で画像認識の精度を比較してみます
- Gemini Advancedのコンソール経由はGemini Ultra1.0であると仮定します
- 画像は3つ用意しました(canvaにある素材を拝借)
- 評価軸は、情報をどれだけ正しく・もれなく認識できたかを主軸に判断していますが、結構主観です
- ※ 公平な比較でありませんので注意してください(画像・プロンプト・判断軸でどれがいいかは変わります)
先に結論
- 今回の検証においてはGemini Ultra1.0の方が精度の方がよかったです
- 特に日本語の認識精度においてはGemini Ultra1.0の方がだいぶよかったように思われます
- ちなみに、生成速度はGemini Ultra1.0が圧倒的に速かったです
- 一応、Gemini Pro1.0でも試しましたが、日本語の認識能力はGPT4Vよりも高いと感じました. しかし、ハルシネーションが多く、文章構成もわかりずらかったので、できればGemini Ultra1.0を使いたいところです
使うプロンプト
この画像がどういうものかできるだけ詳しく教えてください。この画像を見たことがない人に対して、この画像のメッセージが伝わるように説明をしてください。文字としては何が記述してあって、どれが重要か。物体は何が写っていて何が重要か。この画像は何で、誰に何を伝えるためのものか。わかりやすく説明してください。
1つ目
GPT4Vの回答
この画像はワイヤレスイヤホンの広告であると思われます。中央に大きく「CANVA AirDots」という商品名が記されており、これが広告の主要な製品です。その下に「ワイヤレスイヤホン」という説明があり、製品の種類を示しています。製品の特徴を強調するための赤いボタンが一つあり、「Bluetooth5.0の規格対応をサポート」と記載されています。これは、イヤホンが最新のBluetooth 5.0技術に対応していることを強調しています。
画像には、白色の充電ケースが二つと、そのケースから取り出されたイヤホンが二つ見えます。充電ケースはシンプルなデザインで、表面が滑らかで洗練された外見をしています。イヤホン自体も同様にシンプルで、ステム部分とイヤーピース部分がはっきり区別されています。
広告の下部には「余計な接続」、「素早く・簡単に・直に音楽を自由に楽しむ」というテキストがあり、これはイヤホンの使いやすさと接続のシンプルさをアピールしています。全体的に、この画像は製品のデザインと機能性を強調しつつ、クリーンでモダンな印象を与えるためにデザインされています。ターゲットとしては、技術に精通していて、スタイリッシュで使い勝手の良いワイヤレスイヤホンを求める消費者を想定していると思われます。
Gemini Ultra1.0の回答
画像全体の説明
この画像は、真紅の背景に、白抜きの文字とイラストで構成された広告です。ターゲット層は、主にスマートフォンユーザーと考えられます。
画像に記載されている文字は以下の通りです。
- CANVA AirDots (商品名)
- ワイヤレスイヤホン (製品ジャンル)
- Bluetooth5.0自動接続をサポート (製品機能)
- AI音声アシスタントでスマホを探し、ナビを開き、メッセージを送り、写真を撮ることができます。 (製品機能)
- イヤホンのマルチキーを2回押せば、音声アシスタントを起動することができます。 (製品機能説明)
- 急速接続 (製品特長)
- 自動接続、待たずに、耳に装着すれば使えます (製品特長)
重要な文字情報
- CANVA AirDots (商品名)
- ワイヤレスイヤホン (製品ジャンル)
- AI音声アシスタント (製品機能)
- 急速接続 (製品特長)
これらの文字情報は、この製品がどのようなものなのか、そしてどのような特徴を持っているのかを理解するために重要です。
イラスト情報
- 左側:白いAirDotsを装着した人物 (製品着用イメージ)
- 右側:スマートフォンから音楽を聴いている様子 (製品使用イメージ)
- 背景:音符が舞う様子 (製品イメージ)
重要なイラスト情報
- AirDotsを装着した人物 (製品着用イメージ)
- スマートフォンから音楽を聴いている様子 (製品使用イメージ)
- これらのイラストは、製品がどのように使用されるのかを視覚的に表現しています。
画像の目的
この画像は、CANVA AirDotsというワイヤレスイヤホンの機能と特長を訴求する広告です。
ターゲット層
- スマートフォンユーザー
- 音楽を聴くのが好きな人
- ハンズフリー通話したい人
- 音声アシスタントを活用したい人
- 画像のメッセージ
CANVA AirDotsは、AI音声アシスタント対応のワイヤレスイヤホンです。
スマホ探し、ナビ、メッセージ送信、写真撮影など、ハンズフリー操作が可能です。
Bluetooth5.0による自動接続と急速接続で、快適に音楽を楽しめます。
補足
- 画像全体のデザインは、シンプルで分かりやすく、ターゲット層に訴求しやすいようになっています。
- 色彩は、白と赤を基調としており、清潔感と鮮やかさを演出しています。
- 文字情報は、簡潔で読みやすいフォントを使用しています。
- イラストは、親しみやすく、製品の特徴を分かりやすく表現しています。
結論
この画像は、CANVA AirDotsというワイヤレスイヤホンの機能と特長を分かりやすく訴求する、効果的な広告と言えます。
評価: Gemini Ultra1.0の方がいい
GPT4Vでは広告の細かい文字列までが認識できていませんでした。Gemini Ultra1.0ではAIアシスタントで...
から始まる細かい文字の記載まで認識できています。
ただし、どちらもハルシネーションが発生していました。
GPT4Vでは、広告の下部には「余計な接続」、「素早く・簡単に・直に音楽を自由に楽しむ」というテキストがあり
という表記は嘘。
Gemini Ultra1.0では以下の記述は全て嘘です。
イラスト情報
- 左側:白いAirDotsを装着した人物 (製品着用イメージ)
- 右側:スマートフォンから音楽を聴いている様子 (製品使用イメージ)
- 背景:音符が舞う様子 (製品イメージ)
重要なイラスト情報
- AirDotsを装着した人物 (製品着用イメージ)
- スマートフォンから音楽を聴いている様子 (製品使用イメージ)
- これらのイラストは、製品がどのように使用されるのかを視覚的に表現しています。
2つ目
GPT4V
この画像は、無線イヤホンの広告であることが推測されます。画像の中央には大きな「Bluetooth 5.0」というテキストがあり、これはイヤホンが最新のBluetooth技術を使用していることを示しています。その下には、デバイスの軽さを強調する「4.5gの軽さ」というテキストがあります。さらに下には「12h連続再生」とあり、イヤホンのバッテリー持続時間が12時間であることを強調しています。
画像にはイヤホン本体とその充電ケースが写っており、イヤホンは白色で、デザインがシンプルでモダンです。イヤホンと充電ケースは白い背景に対して、上部と下部の異なる角度から見た2つのビューで表示されています。
この画像はおそらく、消費者に対して、この無線イヤホンの主要な特徴と利点を伝えることを目的としています。それは、最新のBluetooth技術、製品の軽量さ、そして長いバッテリー持続時間を通じて、ユーザーにクリアな音質、快適な装着感、そして便利な使用体験を提供することを強調しています。
Gemini Ultra1.0
画像の概要
この画像は、黒い背景に置かれた白いワイヤレスイヤホンと充電ケースを写したもの。イヤホンは耳掛け式で、ケースは円筒形をしている。
テキスト
画像には以下のテキストが記載されている。
Bluetooth5.0
次世代Bluetooth技術、さらに速く安定した接続。データ転送速度が前世代よりも2倍向上、音楽やゲームがさらに滑らかに
4.5gの軽さ
掛け心地がよく、耳に負担がありません。外れる心配もいりません。
密閉性と丈夫さの要件を満たし、ジョギング、ボクシング・旅行先で音楽を聴くときも、しっかりと装着できます。
12h連続再生
充電ボックスの使用で12時間連続再生することができます
物体
画像には以下の物体 が写っている。
白いワイヤレスイヤホン
耳掛け式
軽量 (4.5g)
密閉性と丈夫さ
円筒形の充電ケース
12時間連続再生
重要ポイント
この画像の重要ポイントは、以下の通りである。
次世代Bluetooth5.0搭載
データ転送速度が2倍向上
音楽やゲームがより滑らかに
軽量で快適な装着感
4.5g
耳に負担をかけない
外れにくい
長時間バッテリー
12時間連続再生
画像の目的
この画像は、次世代Bluetooth5.0搭載のワイヤレスイヤホンの特徴を伝えるための広告画像である。
ターゲット
音楽やゲームを快適に楽しみたい人、スポーツシーンでも使えるワイヤレスイヤホンを探している人
メッセージ
この画像は、次世代Bluetooth5.0搭載により、音楽やゲームをより快適に楽しめるワイヤレスイヤホンであることを訴求している。また、軽量で長時間バッテリーなので、スポーツシーンにも最適であることを伝えている。
補足
画像は明るく清潔感のある印象を与える。
イヤホンと充電ケースは、スタイリッシュなデザイン。
テキストは簡潔で分かりやすい。
結論
この画像は、次世代Bluetooth5.0搭載のワイヤレスイヤホンの特徴を分かりやすく伝える広告画像である。音楽やゲームを快適に楽しみたい人、スポーツシーンでも使えるワイヤレスイヤホンを探している人に訴求する効果的な画像と言えるだろう。
評価: Gemini Ultra1.0のがいい
こちらもGemini Ultra1.0の方は細かい広告文字まで認識できています。
今回はどちらもハルシネーションはなかったです。
3つ目
GPT4V
画像には以下の要素が含まれています:
画像の上部には「会社の概要」というタイトルがあります。
タイトルの下には、いくつかの統計情報が白い四角のブロックにまとめられています。
左上のブロックには「社員の男女比」とあり、男性が80%、女性が20%であることを示す円グラフが描かれています。
隣のブロックには、「社員人数 50人」と記載されており、これはおそらく組織の総社員数を示しています。
左から2番目の列の上部のブロックには「平均年齢 28歳」とあります。これは社員の平均年齢を示しています。
その下には「パートナー 50社」とあり、組織が提携している他の企業または組織の数を表している可能性があります。
画像の右側には棒グラフがあり、「売り上げの成長率」という見出しがついています。このグラフは2028年、2029年、2030年と年を追うごとに売り上げが増加していることを示しています。
画像の下部には、「地域貢献賞 No.1」と書かれたリースがあります。これは、組織が何らかの地域貢献でトップの評価を受けたことを示しているようです。
最後に、「福利厚生」というタイトルの下に、組織が提供する福利厚生の種類が箇条書きで挙げられています。具体的には、「各種保険」「育児・介護支援」「通勤交通費の補助」「教育・研修制度」などです。
画像の下には「(2030年時点のデータ)」という注釈があります。これは、画像に表示される情報が2030年時点のデータに基づいていることを示しています。
このインフォグラフィックは、組織の健全性、成長、そして社員やパートナー企業との関係に関する情報を、外部の関係者や潜在的な投資家に対して簡潔に伝えるためのものであると推測されます。重要なのは、組織の規模、成長のトレンド、平均年齢などの人的資源の情報、そして提供する福利厚生の質と範囲です。これらは組織のアピールポイントとなる可能性があり、組織がどのように発展しているかを示す指標となります。
Gemini Ultra1.0
この画像は見やすく、青と白を基調としたシンプルなデザインで、会社の概要を伝えるインフォグラフィックです。
文字
画像には以下の文字が記載されています。
会社の特徴
社員数
50人
男女比
男性: 80%
女性: 20%
平均年齢
28歳
利益率
20%
売り上げの成長率
2028年: 50%
2029年: 60%
2030年: 70%
パートナー
50社
地域貢献率
2030年時点のデータ
福利厚生
各種保険
育児・介護支援
通勤交通費の補助
教育・研修制度
その他
物体
画像には以下の物体が写っています。
円グラフ
社員数の男女比を表している
棒グラフ
売り上げの成長率を表している
アイコン
パートナー企業
地域貢献
福利厚生
重要な要素
この画像で特に重要な要素は以下の3つです。
社員構成
50人の会社で、男性社員が80%と多い
平均年齢は28歳と若い
業績
利益率が20%と高い
売り上げは年々成長している
福利厚生
各種保険、育児・介護支援など充実している
画像の目的と対象者
この画像の目的は、企業の魅力を伝えることです。
採用活動
若い人材や女性人材の採用に効果的
投資家へのアピール
企業の成長性や安定性を伝える
パートナー企業へのアピール
信頼できる企業であることを伝える
伝わるメッセージ
この画像から伝わるメッセージは以下の通りです。
弊社は若い社員が多く、活気のある会社です。
弊社は業績が良く、今後も成長が見込めます。
弊社は社員を大切にし、充実した福利厚生を提供しています。
補足
画像の右上には会社のロゴが配置されています。
画像の左下には、データの出典が記載されています。
まとめ
この画像は、会社の魅力をわかりやすく伝える効果的なインフォグラフィックです。
評価: 引き分け
どちらも正しく、すべての情報を認識できています。
GPT4Vの方が文章っぽく、Gemini Ultra1.0の方が箇条書きベースで構成されています。
まとめ
3つの画像の画像認識の比較をしてみました。
個人的には細かい字をきちんと認識して出力してくれるGemini Ultra 1.0すごいなと思いました。
現状日本語の対応はGeminiの方がいいかもしれないですね。