【最近話題の画像生成AIって何ですか？】イラストAIで気軽に遊んでみよう！

Last updated at 2022-12-06Posted at 2022-12-06

Midjourney v4 [Robot of the future painting, futuristic, sci-fi movie style, bright picture, photoreal]

はじめに

最近の趣味で画像生成AIで遊んでいます。AIでの画像生成はとても簡単になってきています。ところが難しいことをしているかのようなリアクションが多いです。
今回は画像生成AIの概要をつかみ、遊んでみよう！という趣旨で書いた記事になります。

別ジャンルのエンジニアの方々、AIアートを使ったことのない方が対象の記事です。
簡単な内容の記事となっています。より詳しい情報はtwitterやNOTEで簡単に見つかります。

この記事の構成

AI画像生成ってそもそもなんですか？
CLIPとDiffusionモデル
AI画像生成できるサイト・サービスを教えて！
画像生成してみよう！

DiscoDiffusion [Massive subterranean galaxy in sprawling ancient ruins of atlantis, a dramatic matte painting by Tyler Edlin, trending on artstation, vivid and vibrant]

AI画像生成ってそもそもなんですか？

一言で言うと、そのまま。
"AIが画像を生成してくれる”

テキストや画像でプロンプトを入力し、そのプロンプトをもとにAIが画像を生成します。　
簡単にいうと文字を入れて入力して画像を作ってもらいます。
ここで生成というのがポイントになります。

Twitterなどでよく勘違いされている方がおられるのですが、昨今の画像生成AIは学習した画像の切り貼りをしているわけではありません。　
ではどのように画像が生成されるのでしょうか？
次は内部の構造を簡単にみていきましょう。

CLIPとDiffusionモデル

StableDiffusionの構造

画像生成AIの１つであるStableDiffusionの構造を見てみましょう。

[CLIP] プロンプトを処理するシステム
[Diffusion Model] デノイズするシステム　
[Image Decoder] 画像を出力するシステム

主にこの3つから構成されています

StableDiffusionでの画像生成の流れ

CLIPがプロンプトを受け取り処理
Diffusion model適当なガウスノイズが加えられた画像を生成　
CLIPが意図した方向へとデノイズをかける指示を出す
Diffusion modelがノイズを繰り返し取り除く(デノイズする)ことで鮮明な画像に
Image Decoderが画像を出力

[CLIP]

CLIPは入力されたプロンプトと学習したモデルをもとにどんな絵を生成するかをDiffusionモデルに指示します。このCLIPが生成される絵の精度や雰囲気に直接影響しています。　

[Diffusion model]

CLIPの指示された方向へとノイズ画像からノイズを取り除いていきます。

このようなDiffusionモデルを基本構成としたものが現在トレンドの画像生成AIになります。

Midjourney [antique mechanical watch interior, pocket watch mechanism, watch gears, antique, microscope lens, golden color, bright image, much light]

AI画像生成できるサイト・サービスを教えて！

画像生成AI一覧

StableDiffusion
　画像生成AIの王道で様々な画像を生成できます。　
　ローカル環境やGoogle Colab、Dream Studioなど様々なサイトで利用できます。
　オープンソースで公開されているため様々な調整モデルが公開されています。

NovelAIDiffusion
　有料のサービスですが、漫画アニメなど二次元に特化しており高いクオリティーから人気のサービスです。

Midjourney
　こちらも有料のサービスですが、Discord上で動作し簡単にクオリティーの高い絵が生成できると人気です。

DALL-E2
　Outpaintingという画像の外を拡大していける機能が特徴となっています。

画像生成してみよう！　

今回は最もオーソドックスなテキストtoイメージのやり方を解説していきます。　　
今回はこちらのStableDiffusionv２のデモページで遊んでいきます。　

ページを開いたら英語でプロンプトを入れてみましょう
今回のプロンプトはこちら。

antique mechanical watch interior, pocket watch mechanism, watch gears, antique, microscope lens, golden color, bright image, much light

4つの写真風の画像が出力されました！

まだ綺麗とは言えませんね。
ここからプロンプトを弄っていい感じの画像にしていきましょう

antique mechanical watch interior, pocket watch mechanism, watch gears, antique, golden color, photorealistic, cinematic lighting, f/1.0, wood desk

雰囲気が出できたんじゃないでしょうか？

Midjourneyでも同じプロンプトで生成してみました。　

antique mechanical watch interior, pocket watch mechanism, watch gears, antique, microscope lens, golden color, bright image, much light

midjourneyの方が綺麗に出力されていますね　
MidjourneyはDiscordでログインした後、25回分が無料で利用できるのでみなさんも遊んでみてください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up