2
3

Stable Diffusionに関する技術について調べてみました

Last updated at Posted at 2024-08-28

1.はじめに

どうも、ARIの名古屋支社に勤務している愛知県民こと、
新藏(にいくら)と申します♪
(/・ω・)/

2022年頃話題になった画像生成AIについて、当時以下の記事で使い方を紹介しました。

簡単な文章を入力するだけで思い通りの画像を作成できる、大変便利なツールです。
あれから2年、最近は画像生成AIを使ってない・・・と思いました。

そこで今回はStable Diffusionに関する技術について記事にします!

画像生成AIに興味のある方や、使ったことがある人の参考になれば幸いです。
(*^^)v

2.画像生成AIとは

まず初めに、画像生成AIとは何かについてですが、
画像生成AIとは、入力したテキストをもとに画像を作成するAIとなります。

参考:https://www.hitachi-solutions-create.co.jp/column/technology/image-generation-ai.html

2年前、記事にしたStable Diffusionは英Stability AI社による画像生成AIで、
ソースコードと様々なモデルが公開されています。

上記を基に改造が可能なので、独自の画像生成AIを作成することも可能です!

■ソースコード

■モデル

3. Stable Diffusionで使われる技術

さて、ここからが本題ですがStable Diffusionで使われる技術を3つ説明します。

3.1.Diffusionモデル

Diffusionモデルとは、拡散過程(ノイズを加える過程)と逆拡散過程(ノイズを除去する過程)
を繰り返して、画像を生成するモデルのことです。

拡散過程により、ノイズが画像に与える影響を学習し、
逆拡散過程により、ノイズ除去の方法を学習することができます。

010_拡散過程と復元過程.jpg
出典:https://www.sbbit.jp/article/cont1/128789

ちなみに、Diffusionモデルを直訳すると「拡散モデル」となります。

3.2.CLIP

CLIPとはContrastive Language-Image Pre-Trainingの略で、
テキストと画像のペアを学習し、テキストと画像の関連性を評価するモデルとなります。

2021年にOpenAI社が発表しました。

Stable Diffusionでは主に逆拡散過程で使用されていて、
ノイズを除去した画像が、作成したい画像(テキスト入力)とどのくらい一致しているかを評価します。

より詳細には、テキストと画像からベクトルを作成し、成分を比較することで、
テキストと画像の内容が近いかどうかを評価します。

ちなみに、Contrastive Language-Image Pre-Trainingを直訳すると
「対照的な言語イメージの事前トレーニング」となります。

3.3.VAE

VAEとはVariational Auto-Encoderの略で、
対象の画像を圧縮した潜在空間で処理を行ってから
普通の画像に復元することで、処理を軽くできる技術となります。

VAEがないと画像を生成する際にGPUが大量に必要になり、
画像生成に時間がかかります。

ちなみに、Variational Auto-Encoderを直訳すると
「変分オートエンコーダ」となります。

4.おわりに

ここまで読んで下さり、ありがとうございます!!!
(^^)

今回はStable Diffusionで使用されている技術について調べてみました。

CLIPが絵の全体を評価しながら生成しているため、
Stable Diffusionは細部を正確に描写することが苦手なようです。
(生成された画像で、人の髪の流れ・指の本数に異常がある画像を見たことがあります。)

逆に、細部が目立たない風景画やシンプルな画像は得意なので、
これを理解して、今後は画像生成AIを使っていきたいと思います!

この記事を書く際に
「先読み!ITxビジネス講座 画像生成AI 深津貴之著」も読んだので、
気になる方は是非、読んでみてください♪
(:3_ヽ)_

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3