Grace Kelly in Game Of Thrones
— Roope Rainisto (@rainisto) October 6, 2022
Grace Kelly in Wonder Woman
Grace Kelly in Captain Marvel
Grace Kelly in Star Trek#dreambooth #stablediffusion pic.twitter.com/si5YBfUTnB
はわわ... DreamBooth しゅごい...
自分でもやりたいね
学習する
ありがとうございます.
環境
DreamBooth, DreamFusion を GPU メモリ 16 GB or 24 GB で動かしたいメモ
https://qiita.com/syoyo/items/8fc5906db4730a2651c9
ROCm で Stable DreamBooth 動きます(現状解像度に制約あり)
https://qiita.com/syoyo/items/7e8d2fa548a78801c8e4
あたりで整備しておきます!
結果
Marilyn Monroe が故人で肖像権の問題も少ない(遺族はいろいろ主張しているようであるが...)と思いましたが, すでに reddit 等で多く行われているのでやめました.
アーニャにします!
7 枚ほど集めて学習しました.
3090 で学習に 3 時間, 推論に 15 秒ほどでした.
(P100 でも試して, P100 では学習に 4.5 時間, 推論は 20 秒)
じゃーん!
Stable diffusion v1.5
Stable diffusin v1.5 にして試しました!今回は AnneHathaway!
やったー🤗 runwayml stable diffusion v1.5 で Dreambooth できたー! 🎉 Anne Hathaway in Notting Hill 😳 pic.twitter.com/sEQ512Ks0H
— syoyo.eth 🌸 レイトラ ® 🐯 4 周年 🎉 (@syoyo) October 24, 2022
多少は改善されているかも
失敗例
prompt に ~ playing chess
追加してみましたがうまくいきませんでした
考察
アーニャやアン・ハサウェイのまえに, 他の人物データでためしたのですが, そちらはうまくいきませんでした.
髪の色なども prompt で指定しより詳細に指定したのが悪かったのかもしれません. prompt は man とか woman くらいの簡素なのでいいのかもしれません.
元画像の構図(腕が写り込んでいたりとか)はそこそこ影響されます.
狙った画像を作りたい場合はよいですが, より任意で画像作りたい場合は人物画の場合はなるべく顔だけの画像を指定したほうがよさそうです.
また, ある程度特徴のある顔立ちがいいかもしれません.
TODO
- img2img でより狙った構図で画像生成する
- よりうまく学習できるような prompt を見つける(最初に入力画像を顔認識とかにかけてうまくいきそうなのを分類したりとががいいのかしらん). 論文読んで見る.
- GFPGAN あたりで結果をより良い感じにする https://github.com/TencentARC/GFPGAN