画像生成AIにとって一番嫌なノイズを探す -準備編-

Last updated at 2024-11-12Posted at 2024-11-12

概要

生成AIが発展する一方で、権利者が望まない無断のAI学習が問題になってきています
この記事では、学習用画像にノイズが入っていた場合、画像生成AIにどのような影響があるのかを調査しました

※この記事群は2024/10末時点の調査に基づいています

ノイズの定義

この記事群ではノイズを下記のように定義します

画像生成AIが追加学習（LoRA）を行った際に、
何もノイズを加えていない時とは異なった学習結果となるような、
学習を誤認・遅延・阻害する要素

簡単な用語説明

プロンプト
- 生成AIに対して「こんな風にしてほしい」と指示を出すための言葉や文章
epoch
- AIの学習において、すべてのデータを一通り使って学習するひと回りのサイクル。epochが進むほどに特徴が学習されていく
過学習
- epochが進み、学習データに依存しすぎて新たなパターンが生成困難になっていく状態。つまり学習失敗
LoRA（Low-Rank Adaptation）
- AIモデルを小規模なデータで効率よく再学習（微調整）するための手法。一枚～数十枚の学習データをもとにAIモデルが特定のキャラクターなどを効率よく覚え、元の大規模なモデルを大きく変えずにそのキャラクターを再現できるようになる
ウォーターマーク
- 画像や動画、文書などに著作権を示すために重ねられる透かしやロゴ。不正利用を防ぐための目印となる

準備

添付画像はサイズを縮小していますが、追加学習および出力は 512x512 で実行しています

使用モデル

今回は「特定のキャラクターで様々なイラストを生成したい」という目的を仮定し、まず元となるモデルをVRoidベースで作ってみました。

髪型、瞳、衣装、衣装はすべてVRoidプリセットを元に調整しています

学習用に32枚の画像を用意しました。
このキャラクターの顔を再現できるようなLoRA（追加学習モデル）の作成を目標とします

テストプロンプト

追加学習なしでもこのキャラクターに近い顔が出力されるよう、プロンプトを定義します

ポジティブプロンプト

1boy,A high-quality illustration of a gentle smiling boy, with an anime-style appearance, 
set against a bright blue sky. The boy has medium-length, 
slightly wavy brownish-green hair that frames his face, with soft, 
friendly eyes and a calm expression. His eyes are a captivating shade of blue, 
with subtle details that give him a serene, warm look. 
Detailed linework and shading capture the subtle contours of his face,
enhancing the welcoming atmosphere. The background includes clear, 
fluffy clouds scattered across the vibrant sky, enhancing the cheerful ambiance.

ネガティブプロンプト

Blurred edges, rough linework, harsh shadows, overly intense colors, grim or serious expressions, 
dark or cloudy sky, abstract background, lack of detail in the face, distorted proportions, 
overly realistic style, dark or muted colors, overly dramatic lighting, 
crowded background elements.

LoRAプロンプト

LoRA使用時にはタグ toya を加えて、プロンプトを入力します
（toyaはこの子の名前です。漢字だと冬也。）

toya,(ポジティブプロンプト)<lora:(LoRA名):1>

LoRAネガティブプロンプト (ウォーターマーク除去指示なし)

(ネガティブプロンプト)

LoRAネガティブプロンプト (ウォーターマーク除去指示あり)

ウォーターマークの除去をプロンプトに含める事もできます。

english text,watermark,(ネガティブプロンプト)

ベースとなる学習モデル

2024/10末時点でのベーシックな環境であるStable Diffusion 1.6 系での検証を行います
LoRAのベースとなる学習モデルは anyloraCheckpoint_bakedvaeBlessedFp16 を採用しました

追加学習なし時の出力

緑系の髪ではありますが、指示した色味ではなく、睫毛などもほとんど特徴が出ない状態で画像生成されます

追加学習

ノイズなし画像を学習した場合

epoch 8

epoch 4 の時点で既に特徴が再現されるようになり、epoch 6 で安定して顔が生成できるようになります。
epoch 8 では髪の彩度低めのオリーブ色やハイライト、睫毛のバサバサ具合など、色も形状も学習できています。
若干髪の色が濃すぎるところとかはありますが、これは元の学習モデルとの兼ね合いもありそうです。
epoch 10 以降は過学習となっていきます。

この調査では「ノイズなし学習 epoch 8」の結果を成功とみなし、各ノイズを付与した場合にどのように変化するかを検証します
調査編では是非この画像を横に置いて、違いをご確認ください

調査詳細 (epochごとの変遷)

epoch 2

顔がまだ安定していません

epoch 4

少し幼く（元モデルに近く）なってきました

epoch 6

epoch 10

どの結果も似たような顔になってしまってきています

epoch 12

次章

画像生成AIにとって一番嫌なノイズを探す -調査編(1)-

Appendix

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up