概要
先日、mimic というサービスが発表され、大きな反響を呼びました。本サービスの是非は置いておくとして、Deep Learningによる画像生成というジャンルはここ数年で急激に成長しているように思われます。
mimic がどのように学習させているかは公開されていないのでわからないですが、ディープラーニングによる画像生成ではGAN(敵対的生成ネットワーク)と呼ばれる手法を用いて学習させることが殆どかと思います。このGANはかなり画期的な手法で、画像生成以外でも色々なアプリケーションで用いられているそうです。
今回の mimic の件をきっかけとして、自分の理解できる範囲で「GANによる画像生成」について技術動向を追ってみようと思います。(ディープラーニングは素人に毛が生えた程度なので、内容や理解が間違ってたらごめんなさい)
GANのアプリケーション
GANの登場は 2014 年。そこから急激に盛り上がり、2018年には論文数が10000を超えるほどにもなったそうです。2015年の時点で、GANを活用してコンピュータにイラストを描かせるというような試みがもう出てきています。
Chainerを使ってコンピュータにイラストを描かせる
Chainerで顔イラストの自動生成
GANによる画像生成の精度は年々向上しています。この論文では、2014年から2017年にかけて発表されたGANによるリアルな顔画像の生成の推移をまとめていますが、以下のように推移してます。2017年時点で既にかなりリアルな顔画像が生成できていることがわかります。
こちらの記事は、2019年段階でのGANのアプリケーションをまとめています。この記事で紹介されているアプリケーションは、ざっくりまとめると以下です。めちゃくちゃ応用例があります。
- 顔写真生成
- リアルな写真生成(猫とか犬とか鶏とか家具とか)
- アニメ調のキャラクター生成
- ポケモン風キャラクター生成
- 手書きイラストへの着色
- テキストから画像への変換
- 顔写真から絵文字風に変換
- 顔写真の年齢を変える
- 画像の高解像度化
- 画像の欠落の補完
もちろん、実用レベルでなく研究レベルのクオリティのものも多いですが、これだけいろいろできます。この中で特に重要かなと思ったのは、テキストから画像への変換(text2image)と、画像の高解像度化の二つですね。汎用性が高そうで、他の技術との相性がよさそうです。
研究レベルではなく、実際に使われているものもあります。顔合成アプリとかは、AIがどうこうとは言ってませんが恐らくここらへんの技術を使ってると思います。例えば、SNOW とかは、香港のAIベンチャーが協力しているそうです。
プレスリリースとか探してたらアイドル自動生成AIなんてのもありましたね。同社のホームページを見てみると、結構いろいろやってて面白いです。
他にも、赤ちゃんACというAIによって赤ちゃんの顔を予測するというサービスは、ホームページでStyleGANによる画像生成という文言で紹介されています。やっていることは、今回騒動になった mimic とかなり似ていると思いますが、どうでしょう?
また、一時期 Twitter とかでも話題になった WaifuLabsという、美少女イラストを生成するサービスとかもありますね。(GIGAZINEによる紹介記事) WaifuLabsについては、ネットで検索していたらこんなスレッドが見つかりました。このスレのliuru氏がホンモノの開発者であるかはわかりませんが、興味深いことがかなり語られています。専門的な話は拾いきれませんが、目についたものを列挙します。
- 学習の反復回数は膨大になる。クラウドで実行するのは厳しい。
- ebay で買った部品でスパコンを作ってそれで学習させた。
- モデルやソースコードは現時点で非公開。
- 代わりに似たようなAIでソースコードが公開されているものを紹介している。("This Waifu Does Not Exist")
- 後継の "This Anime Does Not Exist" はStyleGANを使ってるそう。
- トレーニングに使ったデータセットは、最初は DANBOORU2020 を使ったが、現在は自作のデータセット。
- モデルのトレーニングには2週間。このような品質になるまでの開発期間が2年。
- 2019年にV1をリリースしていて、V2になるまでが2年と思われる。
- 褐色キャラを描くのが難しい。(世界で生産されるアニメアートの0.3%ぐらいしか褐色系がないから)
イラスト生成AIは、他にも Midjourney や Stable Diffusion があり、つい昨日は ERNIE-ViLG というのも発表されていました。
mimic を妄想する
ここからは、mimic というサービスがどのような要素で成立したかを考えてみます。まず、このサービスの提供元である株式会社ラディウス・ファイブのホームページを見てみましょう。同社はこれまでにも多数のクリエイティブ向けAIサービスを提供していたことがわかります。
たとえば、Anime Refiner なんてのは、先ほどのGANアプリケーションの一例にあった画像の高解像度に相当するものでしょう。クリエイティブAI 彩ちゃんは、まさにAIによるイラスト生成です。なので、もともと同社はAIによる画像生成に関してノウハウが豊富にあるということでしょう。
さて、mimic が実現しようとしていたのは、ある特定のイラストレーターが描いた画像を模倣したAI生成のイラストを作成するというものです。これは一つにまとめると分かりにくいですが、実態は大きく以下の2つに分かれていると思います。
-
イラストレーターの "特徴" を認識するAI
- 入力: イラストレーターの書いた絵(30枚以上を想定)
- 出力: イラストの雰囲気の特徴量
-
イラストを生成するAI
- 入力: イラストの雰囲気の特徴量
- 出力: AIによる生成イラスト
後者のイラストを生成するAIというのは、前述したクリエイティブAI 彩ちゃんとほぼ同等のものだと思われます。mimic の独自性は、イラスト生成するにあたってイラストレーターの特徴量を抽出しようとした点にあるんじゃないかと思っています。これはあくまで私の妄想ですが。
イラストメーカー作成に2時間程度で、無料で一つ作成できることを考えると、特徴量抽出に必要な計算処理はそこまで重くないものであると想定されます。
データセットと著作権
本件の論点としてよく上がるのは、「他人が描いた絵を勝手に使われるのはどうなのか?」 という点です。こちらについては、以下の記事が詳しいのでそちらを紹介するだけとします。
特徴量は誤魔化せる?
イラストレーターの特徴量を抽出するというのは、言ってみれば一種の画像認識です。実はこの分野でAIを混乱させて誤った挙動をさせる手段があります。Adversarial Examples という手法です。
例えば、イラストレーターが画像をアップロードする際に、このような手法でノイズを混入した画像をアップロードすれば、ひょっとしたら特徴量の抽出がうまくいかなくなる可能性はあります。このような防衛手段はあるかもしれませんね。
最後に
正直、全然調べきれてないと思いますが、自分の中ではまぁいいかなというところまでは調べた気がします。また何か面白い情報があれば追記するかもしれません。