More than 1 year has passed since last update.

AIが作る予想外な画像を考える

Last updated at 2022-12-19Posted at 2022-12-18

これは RICORA Advent Calendar 2022 19日目の記事です。
Google Colaboratory で Stable Diffusion 2.0 で画像生成します。
https://huggingface.co/stabilityai/stable-diffusion-2-1
生成された画像から、どうしてこんなものが作られるのか考えてみます。
※AIはブラックボックスなので、ただの個人的な予想であり、大した根拠はありません。

Apple

"Apple" で画像生成してみます。

Apple は Apple でもこっちの Apple が出ました。こうなる原因は、データセットでは果物の意味で Apple を使うよりも、Apple 製品という意味で使うことの方が多いからだと思われます。
果物のリンゴの画像が欲しいなら "Apple fruit" みたいに fruit を付けましょう

謎の言語

"sentence" で画像生成してみます。

見たことあるようで知らない言語が出てきます。おそらく文字っぽい曲線や直線は学習しているが、一文字ごとに区切られているのは理解できていないのでしょう。あと、機械翻訳じゃないのでちゃんとした文章は出来ません。

ロボットは絵を描けない（主語と述語）

"The robot is painting a picture" で画像生成してみます。

何回やってもロボットが絵を描いている画像ではなく、ロボットの絵、または単にロボットと絵の組み合わせが生まれます。Stable Diffusion は機械翻訳ではないので、お題のどの単語が主語かを読み取らず、単語を飲み込むだけです。そして普通のロボットは絵を描かないので、ロボットに思い通りの動きをさせるのは難しいです。

指や境目

"human body" で画像生成してみます。

手が得意じゃない（体を作ることも苦手ですが）のも有名な話ですがなぜでしょう。手はいろんな形をとるからではないでしょうか。グーパーチョキ、手首を回す、箸を持つ、のように形を変える上、奥行きがあります。AIとしても見るたびに形が変わって学習しづらいのかもしれません。

終わりに

それっぽいこと言ったかもしれませんが、最初に言ったとおりただの予想です。大した根拠はないので悪しからず。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up