はじめに
「時刻を指定したアナログ時計の画像を画像生成AIは作れない」という記事をnoteで見かけたのでいろいろ試してみました。
ChatGPT
元記事はChatGPT-4oでは無理だったというものなのでChatGPT-4.5で試してみました。残念ながらこのリンクでは作成された画像が共有できないのでここに貼ります。
要するに元記事あるように10:08の画像が時計の画像に多いのでそれに影響されてしまって短針と長針の絵を自由に描けないようです。これはChatGPTの問題というより内部で呼ばれているDALL-Eの問題です。面白かったのは途中でGTPT-4.5は自発的にDALL-Eを諦めてPythonで描くことを選択し、結果的に正しい時計の画像を描けました。
これをどう見るかは難しいですね。自分で限界を吐露して方法を切り替えたのだから賢いとみるべきなのか。
他の画像生成AI
他の画像生成AIも試してみましたが悲惨でした。
Canva
Microsoft Designer
Artguru
FreeP!K
LLMから呼び出す場合と違って一回だめだったらそれっきりなので難しいですね。
Gemini Flash
Imagin3を呼び出して絵を描こうとするのですが何度修正を依頼してもダメでした
おわりに
勿論こういうのって「手描きの図をアップしてこの通りやれ」とかいえばできるんでしょうけど、言葉だけだと難しいというのは意外だったのでこれを見つけた元記事の人は偉いと思います。FreeP!Kなんかは苦肉の策でデジタルの12:13を描いてますがこれをちゃんと描けるということは12:13を指す時計という「概念」を理解していないわけじゃないけどぴったりの絵が作れないということなんですね。なかなか奥が深いです