More than 3 years have passed since last update.

ディープラーニングを使って画像生成を行うレシピの紹介(2022年8月版)

Last updated at 2022-08-22Posted at 2021-11-01

はじめに

※本記事は2022年8月に新着レシピ分を記事に追加いたしました。
Axross Recipeを運営している松田です。

Axross Recipe は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。

現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、Pythonプログラミングを活用して実際の業務に近いテーマで、動くものを作りながら学ぶことができます。

Axross：https://axross-recipe.com
公式Twitter：https://twitter.com/AxrossRecipe_SB

画像生成の仕組み

画像生成とは

画像生成（Image Generation) とは、機械学習の手法ディープラーニング（深層学習）の利用用途の1つで、画像や映像などの自動加工や、絵画やデザインの生成を行う技術のことを指します。

画像生成の技術は、ディープラーニングの実務で、学習用データを集める際に良く使われます。

一例として、医療分野におけるディープラーニングの画像認識を用いたがん細胞の発見タスクを挙げます。

ディープラーニングの予測精度で最も重要な要素は、データの質を担保しつつ量を確保することです。そのため、モデルに学習させるためのサンプルデータとなるがん細胞の様々なパターンの画像を用意する必要があります。患者の過去の事例から、様々な形状、大きさ、色付き等のパターンのがん細胞のサンプルを見つけて、学習用データとして集めることはとても大変です。

この場合、画像生成の技術を活用することで、サンプルデータの量が不十分であった場合でも、サンプル画像から類似した特徴量の画像を生成し、学習用に使う膨大なデータを再現することができます。

その他にも、画像生成のビジネス活用例はいくつかあります。
・存在しない人物画像を生成し、企業パンフレット等の被写体として利用する
・製品や建築物、空間のデザインアートに利用する
・バーチャルYouTuber、バーチャルアイドルを自動生成する
・過去の歴史的資料から、当時の光景を再現する

画像生成の手法

現在用いられている画像生成の手法をいくつかご紹介します。

GAN（敵対的生成ネットワーク）

GAN（Generative Adversarial Networks） は、Generator（生成者）とDiscriminator（判定者）という2つのネットワーク構造に分けられます。Generatorは、偽物といえるデータをランダムなノイズから作り出していくという役割を担っています。Discriminatorは、Generatorで生成された偽物データを、本物データと比較していくことによって、そのデータが本物なのか偽物なのか判定していくという役割を担っています。2014年にイアン・グッドフェローらによって発表された教師なし学習で使用される人工知能アルゴリズムの一種です。

フェイスブック社のVP兼チーフAIサイエンティストであるヤン・ルカンは、GANについて、「機械学習においてこの10年間で最も興味深いアイデア」（"This, and the variations that are now being proposed is the most interesting idea in the last 10 years in ML, in my opinion."）と評価しており、GANはAIの今最も熱い研究分野とも言えます。

CycleGAN

CycleGANは、無関係な2枚の写真を使い、互いに変換し合う（特徴を似せ合う）ようにサイクル状のネットワークを構成する、2017年3月に発表されたGANモデルです。
名画と風景画像、人物画像とアニメ画像、同一画像の季節入れ替え等関係ない画像同士を合わせ、それっぽく合成させた画像を生成することができます。

FACE AGING WITH CONDITIONAL GENERATIVE ADVERSARIAL NETWORKS

DCGAN

**DCGAN（Deep Convolutional GAN)**は、2015年にA.Radfordらによって発表された敵対的生成ネットワークの一種であり、生成ネットワーク（generator）と識別ネットワーク（discriminator）の2つのネットワークに畳み込みニューラルネットワーク(CNN)を用いたモデルのことです。
引用：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

StyleGAN

StlyeGAN2018年12月にNvidiaの研究者によって導入され、2019年2月にソース利用が可能となった生成的敵対的ネットワークです。
下記画像は一見写真のように見えますが、StyleGANによって生み出された画像です。全て存在しない人物なのです。
引用：A Style-Based Generator Architecture for Generative Adversarial Networks， NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN， This Person Does Not Exist

DALL-E

DALL-Eは、OpenAI（オープンエーアイ）が2021年に発表した画像生成モデルです。任意のテキストを入力することによって、その内容に合わせた画像を生成することができます。このモデルは、大きく分けると２つのステージを経て作られます。
ステージ１は、画像の圧縮・復元モジュールの作成です。これには、Discrete VAE（離散変分オートエンコーダ）と呼ばれるモデルが使われていて、エンコーダがRGB 256×256の画像を32×32のパラメータに圧縮し、デコーダはそのパラメータを再び入力とほぼ同品質のRGB 256×256の画像に復元します。
ステージ2は、画像とテキストの対応関係の学習です。これには、Transformerと呼ばれるモデル（赤の点線で囲まれたEncoderの部分）が使われていて、画像情報（画像トークン）とその内容を説明するテキスト情報（テキストトークン）の対応関係を学習します。
下記画像は「アボカドの形をしたアームチェア」を元に生成された画像一覧です。

引用：DALL·E を5分以内で説明してみた-AINOW-