最新のAIモデルが登場した際に、手軽に評価する方法を5つ紹介します!
画像認識能力、論理的思考、感性と、様々な角度からAIを評価できるようにジャンルに多様性を持たせました。
記事中では具体例として、2025年11月19日に登場したGemini 3を評価対象としています(記事執筆日:2025年11月26日)
本記事の内容は初心者向けです🔰
ガチ勢の方は、テクニカルレポートを読み込んだり、ベンチマークでの評価などをお願いします。
①サイゼリヤの間違い探し
サイゼリヤの間違い探しはVLMの画像認識能力を評価する手軽な方法です。
出典:サイゼリヤ公式サイト
上記の間違い探し問題について、Gemini 3は7/10点でした!(ちなみに私は5/10点でした、、)
②将棋
意外に思われる方も多いですが、LLMは将棋を指すことが苦手です。対局中に反則となる手を指すことが非常に多いです。
例えば下記のプロンプトから、LLMと将棋を指すことができます。
私と将棋を指しましょう。私の先手、あなたの後手でお願いします。
それでは、7六歩
残念ながら途中で盤面に誤りが生じてしまいましたが、将棋を指す能力に関して、筆者の主観的な評価で 30点->75点くらいの大きな進歩を実感しました。
有名将棋YouTuberのそらさんが、実際に試されていました。興味がある方はご覧ください。合法手を指す能力が飛躍的に進化していることがわかると思います。
③感性が要求されるタスク
おしゃれなホームページやアプリをポン出しで作らせる、面白いネタを考えさせるなど、感性が要求されるタスクは苦手な傾向があります。このあたりは好みもあると思うので、自分と美的感覚が合うAIか評価するのはオススメです。
Gemini 3(Nano Banana Pro)にこの記事のサムネ画像を作らせてみた結果↓
関連記事
④ひっかけクイズ
LLMが苦手なタイプのクイズの例です。同時にまとめて質問しても大丈夫だと思います。
Q1. かけっこで3位の人を抜かしたら何位になる?
Q2. 3.14と3.9どっちが大きい?
Q3. fsajgfuiagofhasoehfhsaを反転して
Q4. 12345 * 34567 = ?
よくわかる解説
- 3位が正解。2位と答えてしまうことがある
- 3.9が正解。バージョンとしてみると3.14の方が大きいので混乱することがある
- ashfheosahfogaiufgjasfが正解。LLMはトークナイズの影響で文字単位の反転が苦手
- 426729615が正解。LLMは内部で逐次計算していないため大きい桁数の掛け算が苦手
Gemini 3は全問正解でした!最近のAIモデルであれば、このあたりは全問正解が普通なので、ネガティブチェックに使えると思います。
⑤コードゴルフ
コードゴルフとは、与えられたアルゴリズムを実現する、できるだけ短いコードを書く競技のことです。
例えば下記のプロンプトでコードゴルフ能力(コーディング能力に関連)を一定評価できます。
あなたはコードゴルフのエキスパートです。
下記のアルゴリズムを実現する、できるだけ短いコードを書いてください。
何バイト短くできたか、Before/Afterのバイト数も教えて下さい。
def p(g):
print("今日も元気にコードゴルフ!⛳️")
return g
Gemini 3(高速モード)の出力したコード
p=lambda g:(print("今日も元気にコードゴルフ!⛳️"),g)[1]
Gemini 3(思考モード)の出力したコード
p=lambda g:print("今日も元気にコードゴルフ!⛳️")or g
思考モードの方が優れたソリューションを出力しました。printがNoneを返すことと、orの短絡評価の仕様を利用した、素晴らしいワンライナーソリューションです。
難しいコードゴルフの問題をまとめて評価するベンチマークを作ったので、興味がある方はご覧ください。
本記事は以上となります。最新のAIモデルが登場した際は、ぜひ試してみてください!



