StableDiffutionを触ってゲームとかする時用のアイコンを作ってみたので、また触るときに思い出せるように軽く残しておきます。
気が向いたら直すかもですが、雑に書きます。
触ってみた感想とか
ローカルにダウンロードして動かしてみたけど、やっぱり重いなと感じました。
ある程度の攻勢を決めるまでは、パラメータを低くしてある程度は回転率を上げていきたい。
GoogleColabとかVM使ってやったほうが良かったかも
あと1回で複数の画像を生成したほうが、望んでいる構成を見つけやすかった印象
最初はプロンプトにどんなものを入れたらいいかわからないから、サイトとかでほかの人のプロンプトを参考にしたり、img2imgから始めたりするのがいいのかも
1回のプロンプトで求めているものを出すより、生成した画像からさらに生成していって、ちょっとずつ理想に近づけていく感じ(プロの方とかは違うのかもだけど、、、)
mov2movもやろうと思ってたけど、動かなかったからまた次回
モデル大事!!
実行環境
- Win11
- Core i9-12900k
- RAM 16
- RTC 3070
世代はちょっと前だけど、まあそこそこかな?
金額でいえば25くらい
モデル
最初はデフォルトのモデルでやってたけど、モデルを変えてから全然違った
HimawariMix
Anime Pastel Dream
blue_pencil
このあたりを試したけど、最終的にはHimawariMixを使わせてもらっていました。
civitai.com
ここでモデルを探したり、プロンプトの参考を探したり
chichi-pui
あとはこっちでもプロンプトの参考になりそうなのを探してました。
プロンプト
最初っからいろいろ情報を入れるより、少ないところから足していく感じのほうがこんがらがらなそう
プロンプトには
masterpiece, best quality
ネガティブに
(worst quality, low quality:1.4), (bad_prompt_version2:0.8), EasyNegative, badhandv4, text, name, letters, watermark, unnatural fingers
を基本的に入れて、そこから 1 boy, grasses, upper body, blackcolor hairとか追加で入れていく感じ
ネガティブプロンプトのEasyNegativeはググってください
あとはほかの人のプロンプトを、GeminiとかChatGPTにぶち込んで解説させれば、なんとなく理解していけるのかなといった感じ
パラメータ
詳しくはググってください
- Stepsは精度。構成を考えるうちは20とかでやって、決まってきたら45くらいで結構きれいになる
- scaleはよくわかんないけど、7 ~ 15くらいを適当にいじる
- sizeは基本 512×512。横長とかにするなら、StableDiffutionの得意な値にしてあげたほうがいい
- seed 目指す画像。いい感じのものができたら、それのseedをここに指定してあげるといい
- Denosing strength img2imgでどれくらい元の画像から離れた感じにするか。0.2とかだとほぼ変わらん
- countだっけ? 生成する画像の数。4でやることが多かった。Apexしながらなら9とか
他の値はいじってたのもあるけどだいたいデフォルト
進め方
他の人がどうやっているのかは知らない
- とりあえずで生成してみてモデルを決める(1 boy, grasses とか)
- プロンプト、ネガティブを追加して理想に近づけていく
- 少し近づいたなと思ったら、その画像をimg2imgに入れたり、seedに設定してずれないようにする
- いったんstepsを45とかにしてきれいにする
- 細かいところをinpaintとかで変えていく
- きれいにして仕上げる
いらないものがあったときは、inpaintよりGoogleの消しゴムマジックとかで消しちゃったほうが早かったりするかも
まとめ
めっちゃ時間かかった
PCめっちゃうるさくなるし、次やるときはColabでやろうかな
最初に生成したものと、最終的にこれでいいやってなってIconにしたものを張っておきます。
ヘッドフォンにOTAって入れたのは画像の上から落書きして、再度img2imgしました。
画像サイズが512*512じゃないのは、頭が途切れてたから、拡張しました。これもめっちゃ時間かかった
理想があってそれに近づけようとすると大変だけど、なんとなくいい感じのものが欲しいだけなら、モデル選んでtxt2txtで生成すれば結構簡単そうかなといった感じでした。
次はローラとか触りたい