【ChatGPT有 vs Sakana AI＋DALL-E3】で画像解析やってみた。

Posted at 2024-03-22

　どうも、カーブミラーです。

　今回は、Sakana AIという名のAIを使ってみた結果のご報告です。といっても、とあるモデルの画像解析能力だけです。

本記事は、ChatGPT（有料版）
＋DALL-E3で行なっております。
画像はあります。　あしからず。

　今回のこれは
　　ニュースであり、
　　　本題でもあります。

　Sakana AIとは？
　　元Googleの研究者ふたりが
　　　東京を拠点に始めた
　　　　AIスタートアップです。

　詳細は
　　ググっていただければ
　　　と思います。

　すでに
　　各社から
　　　多くの投資を受けている
　　　　会社であり、
　　　　　人材募集には
　　　　　　四日で300人の
　　　　　　　応募があったとか。

　ようするに
　　期待されている、
　　　ということですね。

　私も注目していました。
　　新しもの好きなので😅

　さて、
　　そんなSakana AIですが
　　　これまで、ものの提示が
　　　　ありませんでした。
　　　　　あったけど見逃したかも。

　それが昨日（2024/03/21）、
　　X-Twitterにポストが上がり、
Sakana AIからのポスト
　　　その基盤モデルの
　　　　試作モデルが
　　　　　公表されたのです。

　ちなみに、
　　このポストは日本語でした。

　以下の三つのモデルが
　　試験的に構築されました。

　すべて日本語対話モデルです。
　・大規模言語モデル
　　「EvoLLM-JP」
　・対話可能な画像言語モデル
　　「EvoVLM-JP」
　・高速な画像生成モデル
　　「EvoSDXL-JP」

　一般に公開されたのは、
　　二番目の「EvoVLM-JP」です。
　　　Hugging Faceにての公開です。

　今回、試すのは、
　　この「EvoVLM-JP」です。

　UIは、単純な構成です。

　画像の入力枠
　画像に関する質問枠
　SUBMITボタン（送信ですね）
　モデルからの返答

　上から下に入力していけば、
　　最後に結果が出てくるわけです。

　さて、
　　実食！じゃないやw

　実験に
　　EvoVLM-JPで
　　　画像解析をしてみます。

　ここでは
　　DALL-E3で描画した
　　　画像を使用します。

　画像を入力して
　　質問を入力します。

　質問：
　　“この写真について詳細な説明を箇条書きでしてください。”

EvoVLM-JP

　（昨日と今日やりましたが、
　　　同一文言でした。
　　　　一字一句違わずに）

　ChatGPTでも
　　同じ画像とプロンプトで
　　　やってみました。

ChatGPT

　（こちらもやってみましたが
　　　文言の中身は違いなし）

　うん、ChatGPTの方が
　　細かい点まで、出してくれます。

　細かい、っていうことは
　　それだけガチャ要素が
　　　減るわけです。

　ちなみに
　　両者を描画させると
　　　以下のとおり。

EvoVLM-JP

ChatGPT

　結果は
　　ChatGPTさんが
　　　解析した方が
　　　　良い結果でしたね。

　ただし、
　　AIの動きは、
　　　日進月歩どころの
　　　　スピードではありません。

　これから
　　どんなAIに化けるかを
　　　注視したいと思います。

　このことが
　　みなさんの
　　　作品制作の糧に
　　　　なれば、幸いです。

　今回は、ここまで。