More than 1 year has passed since last update.

絵本生成AIをChatGPTとDALL·E 2で作る

Last updated at 2023-02-14Posted at 2023-02-12

会話型AIの勢いがすごいですねー！

ChatGPTに対抗してGoogleもBardなるものを発表し、これからどんどん発展していきそうです。

ChatGPTの方はOpenAIからAPIも提供されているので（正確には今後提供予定、今出されているものはChatGPTではなくGPT-3系のモデル）、これと、同じくOpenAIが提供している画像生成AIのAPIであるDALL·E 2を組み合わせてみたら面白いんじゃないかということで、今回はLINE上に絵本生成AIサービスを作ってみました。

イメージ図

イメージ図はこんな感じです。

LINEから何かトピックとなる言葉を送るとを送るとGASがそれを受け取って、文章生成AIに投げます。

文章生成AIで生成された文章を受け取ったら、今度はそれを画像生成AIの方に投げます。

返ってきた文章と画像をLINEに返してやれば即興絵本がLINE上で読むことができます。

文章生成AI

文章生成AIは、OpenAIのページのExamplesにもあるMicro horror story creatorを使います。以下のようにpronptにトピックを指定してあげると適当なホラーストーリーを作ってくれるみたいです。

Micro horror story creator API request body

{
  "model": "text-davinci-003",
  "prompt": "Topic: Breakfast\nTwo-Sentence Horror Story: He always stops crying when I pour the milk on his cereal. I just have to remember not to let him see his face on the carton.\n    \nTopic: Wind\nTwo-Sentence Horror Story:",
  "temperature": 0.8,
  "max_tokens": 60,
  "top_p": 1.0,
  "frequency_penalty": 0.5,
  "presence_penalty": 0.0
}

今回はTwo-Sentence Horror Storyではなく、ある程度読み応えを期待して以下のように「起承転結の4文の童話」として指定してみます。文章量が増えるのでmax_tokensも大きくしています。

Micro tale creator API request body

{
  "model": "text-davinci-003",
  "prompt": "トピック:" + topic + "\n起承転結の4文の童話:",,
  "temperature": 0.8,
  "max_tokens": 600,
  "top_p": 1.0,
  "frequency_penalty": 0.5,
  "presence_penalty": 0.0
}

例えば、トピックに「勇敢なゴリラ」を指定した時以下のような文章が返ってきました。

起: あるところに、勇敢なゴリラのハナコがいました。

承: ゴリラのハナコは、仲間たちと森のどこかにある城を探しに行くことを決心しました。

転: 城の前には、大きなドラゴンが待ち受けていました。勇敢なゴリラのハナコはドラゴンを打ち破り、城を発見しました。

結: 勇敢なゴリラのハナコは、城で宝物を見つけることができました。宝物を持って夕日を見ながら、ハナコは元の森に帰って行きました。

面白いかは別にしてストーリー性のある中々良い感じの文章が出力できているのではないでしょうか。

これを一文ずつ画像生成AIに投げたら、絵本を作ることが出来そうです。

少し困ったのは、この「起:」「承:」「転:」「結:」の後ろのコロンが全角だったり半角だったり、あるいは()で書かれたりとコロコロ変わっていたのと、たまに起承転結の順番も目茶苦茶だったりしたので、画像生成AIに投げるときに少し工夫が必要でした。この辺は私の扱い方が悪いかもしれませんが、ChatGPTがリリースされるとある程度使いやすくなるんじゃないかなーと思います。

画像生成AI

文章生成AIは、OpenAIのページのDocumentationを読みながら作っていきます。といっても特に難しいことはなく文章と画像の枚数とサイズを指定してあげるだけです。

DALLE2 API request body

{
    "prompt": prompt,
    "n": 1,
    "size": "256x256"
  }

画像は、"256x256" "512x512" "1024x1024"から選べるようですが、高精細なほど使用トークン量が増えるようなので"256x256"にしました。あとpromptが英語のみの対応なので、promptにGASの機能で翻訳をかけました。それと、DALL·E 2は写真のような画像も出力してくれますが、今回は絵本テイストにしたく画像間のテイストも併せたいので、promptの末尾に"super fine illustration,colorful painting style with a pop color and a very fine touch, soft tone"のように「呪文」をつけてみました。語句に関しては、ネットで調べて良さそうな奴を追加追加でつけていきましたが、プロンプトエンジニアとしてのスキルも伸ばしていきたいものですね。prompt変換のGASでの実装を一応載せておきます。

prompt_convert

prompt_converted = LanguageApp.translate(prompt, "ja", "en")+"super fine illustration,colorful painting style with a pop color and a very fine touch, soft tone")