これは RICORA Advent Calendar 2022 19日目の記事です。
Google Colaboratory で Stable Diffusion 2.0 で画像生成します。
https://huggingface.co/stabilityai/stable-diffusion-2-1
生成された画像から、どうしてこんなものが作られるのか考えてみます。
※AIはブラックボックスなので、ただの個人的な予想であり、大した根拠はありません。
Apple
"Apple" で画像生成してみます。
Apple は Apple でもこっちの Apple が出ました。こうなる原因は、データセットでは果物の意味で Apple を使うよりも、Apple 製品という意味で使うことの方が多いからだと思われます。
果物のリンゴの画像が欲しいなら "Apple fruit" みたいに fruit を付けましょう
謎の言語
"sentence" で画像生成してみます。
見たことあるようで知らない言語が出てきます。おそらく文字っぽい曲線や直線は学習しているが、一文字ごとに区切られているのは理解できていないのでしょう。あと、機械翻訳じゃないのでちゃんとした文章は出来ません。
ロボットは絵を描けない(主語と述語)
"The robot is painting a picture" で画像生成してみます。
何回やってもロボットが絵を描いている画像ではなく、ロボットの絵、または単にロボットと絵の組み合わせが生まれます。Stable Diffusion は機械翻訳ではないので、お題のどの単語が主語かを読み取らず、単語を飲み込むだけです。そして普通のロボットは絵を描かないので、ロボットに思い通りの動きをさせるのは難しいです。
指や境目
"human body" で画像生成してみます。
手が得意じゃない(体を作ることも苦手ですが)のも有名な話ですがなぜでしょう。手はいろんな形をとるからではないでしょうか。グーパーチョキ、手首を回す、箸を持つ、のように形を変える上、奥行きがあります。AIとしても見るたびに形が変わって学習しづらいのかもしれません。
終わりに
それっぽいこと言ったかもしれませんが、最初に言ったとおりただの予想です。大した根拠はないので悪しからず。