所謂AIでできることが増え、加速的に景色が変わってきているので、自分の備忘録として自分の周りの状況と主観を混じえた画像生成の歴史記事を残す。勢いで書くので誤字や間違った部分が見つかったら修正リクエストを頂けると嬉しいです。
7,8月 画像生成サービスの増加、ローカルでの画像生成が可能になる
DALL-Eが登場し暫くした後にMidjourneyが登場、社内でレモンでできたウサギの絵を生成する流行が発生。大体2022年の7-8月あたり。
8月下旬にStable diffusion(以降SD)が登場。この記事がバズって知った記憶がある。
https://note.com/fladdict/n/n13c1413c40de
速攻でローカルで落とし実践。ゲーム用に買っていた3060でVRAMがぎりぎり足りる。確かVRAMが足りずここで撃沈する人が一定数いたり、CLIないからColabが流行ったりしていた。venvの知識がなかったので無理やりanacondaで環境作っていた。
SDの強みはサイトにアクセスして〜とかではなくローカルで完結できたところにあると思う。MidjourneyはこのときAPIは公開されておらず、discordでやる必要があった(楽ではあるけど大量生成には向いてない)。だからSDが出てから派生アプリが掃いて捨てるほど出てきたし、LINEアプリにもなってバズったりしてた。当初SDは批判も受けていたけど、あれが民間に降りてきたこと自体は自分は肯定的に考えている。あとMidjourneyで日本的kawaiiが生成できたのもこの辺りだったから、SDのモデル取り込んだのでは?って噂になっていた。
8月末にmimicという画像生成サービスが炎上したことも日本の画像生成を語る上では欠かせないが省略。
9-10月 新モデルの登場とプロンプトの変化
10月にnovelAIという別の画像生成サービスのモデルデータが流出、一気に二次元絵のクオリティが上がる。このあたりの周辺の話として、自分のイラストを学習されると困るというコメントが凄い見えるようになった。これは提供したいかの意志にかかわらずdanbooruなどの転載サイトに無断で転載され、それを学習元として使っていたケースが相当多かったため。
もう一つの着眼点として話題になっていたのはpromptの問題。入力するテキスト内容によって一気に生成される画像のクオリティが左右されること、テキストが同一でもシード値が違えば結果が全く違ったため、どのようにすれば安定して高クオリティの画像を生成できるかの試行錯誤がされていた。今でこそプロンプト内容は晒してる人も多いが、「秘術」として隠していた人も多かったし、プロンプト内容を売る人も出てきていた。そんな状態だった10月に「元素法典」という文章が流通した。これはどのようにプロンプトを追記すれば安定して高クオリティの画像が生成できるかを検証した成果物PDFで、プロンプトだけでなくネガティブプロンプトという「AIに出力して欲しくない単語」が書いてあった。これによって一気にクオリティが上がり、AIを簡単に見抜く方法として知られていた「指が5本になっているか」というハードルも越えるようになる。今ではもうAI絵かの判断は困難になっている。
11月- さらなる新モデルの台頭、「マージ系」の進出
さらにクオリティの高い「anything v3」や「Openjourney」、モデルに自分の絵を更に学習させたモデルや、複数モデルを組み合わせた「マージ系」と呼ばれる物も増加。3D系は特にマージ系を使っていることが多く、今最新のモデルを使いたい場合はdiscordサーバーに入って聞くのが良いと思う。
ここまでが画像生成で自分が見えている範囲の歴史と現状。