【実験】正面の顔写真一枚からアバタ画像を作る＆逆変換してリアルにしてみる

Last updated at 2023-12-23Posted at 2023-12-17

はじめに

近年は生成AIの他にメタバースの技術も盛り上がっていますが、そこで欠かせないのが自分の「アバタ」です。
アバタ作成ソフトを使って好きなアバタを作ったり、 「自分に似たアバタを作る」 サービスも出てきています。

本記事では、画像生成・変換に特化した生成AI「Stable Diffusion」やその周辺の拡張技術を組み合わせることにより、単一の顔写真から特定のテイストに沿ったアバタをどれくらいうまく生成できるのか実験してみました。

以下の環境で検証を行っています。

項目
OS	Windows 11
CPU	AMD Ryzen 7 5700X
メインメモリ	64GB
GPU	NVIDIA GeForce RTX 3090

目的

単にアバタを作るのではなく、実在の人間の顔写真に似た顔のアバタを作ることを想定しています。

今回は、「VRoid Studio」で作れるアバタと同じような見た目・テイスト、かつ実在の人間に近いアバタを作ることを仮定し実験します。

注意
あくまで個人的な実験として行ったものを記載しています。VRoid Studioの利用規約を事前にご確認ください。

（出典：公式YouTube動画より）

アバタ化するターゲットとして、以下の４人を用意しました。「ぱくたそ」さんから、背景が白く使いやすい写真をお借りしました。

実験1. まずは用意したアバタのテイストを学習してみる

Stable Diffusionを使い、VRoidのテイストを学習させてみます。簡単にLoRAを学習することができる「sd-scripts」を利用しました。

学習にあたり、実際にVRoid Studioを使って数十体のモデルを作り（なるべく街にいそうな顔、現実的な顔）、正面のキャプチャを用意しました。簡易化のため、服は青のTシャツで統一しています。

共通事項として以下のプロンプトを利用しました。vroidstudioが新しく学習される単語になります。

vroidstudio, looking at viewer, blue shirt, facing front, white background

用意した画像を使ってLoRAを学習し、vroidstudioをプロンプトに入れてランダムなシード値で画像生成した結果がこちらです。

データセットには使っていない髪型やポーズも出現しており、かなり用意したアバタのテイストを学習できているようです。

実験2. Image-To-Image(i2i)機能を使って直接顔写真からアバタを作ってみる

Stable DiffusionはImage-To-Image(i2i)も行うことができます。直接顔写真を入力し、プロンプトにvroidstudioと指定してみた結果、以下のようになりました。

用意したデータセットのテイストにはなっていますが、シードを変えるとかなり見た目が変わってしまっているほか、データセットにない髪型を表現するのは難しいようです。。

実験3. ControlNetを使ってアバタ化してみる

ポーズ推定、線画からの画像生成など多彩な入力画像のコントロールができる「ControlNet」を使って実験2と同じことを試してみました。

入力画像を線画に変換してからStable Diffusionで生成を行う「Canny」のモデルを使ったところ、以下のような画像が得られました。

実験2よりは安定した生成ができているものの、入力が線画のため髪色肌の色が変化してしまっています。
また、実在の顔写真からの線画抽出はパラメータ（閾値）の調整が難しく、設定によっては特に髪型を完全には捉えられていないことがわかります。
いろいろな顔写真を入力としてアバタの生成を自動化することをゴールと考えると、線画の抽出はボトルネックになりそうです。