GAN
敵対的生成ネットワーク(GAN/Generative Adversarial Networks)とは、2種類のニューラルネットワークを戦わせながらデータ生成を行うためのモデルである。2014年に機械学習研究者イアン・グッドフェローらによって「Generative Adversarial Nets」という論文で初めて提唱された。
GANは、機械学習における生成モデルに分類される。生成モデルとは、与えられたデータからその構造や特徴を学習し、新たなデータを生成するモデルである。一方、画像が何であるかを判別するモデルは識別モデルと呼ばれ、この2つは目的が異なる。
GANが「敵対的生成ネットワーク」と呼ばれる理由は、生成モデル(Generator)と識別モデル(Discriminator)が互いに競い合いながら学習を進める構造を取るためである。
GANの構造:生成器と識別器
GANは以下の2つのネットワークで構成される。
A. Generator(生成器)
• 乱数(通常は正規分布などに従う)を入力として受け取り、新しいデータを生成する。
• 目的は「識別器に本物だと思わせる偽物を作ること」である。
B. Discriminator(識別器)
• 入力されたデータが 本物(訓練データ) か 生成器の偽物 かを判別する。
• 目的は「生成器を見破ること」である。
この2つが交互に改善されていくことで、最終的には本物と見分けがつかないようなデータを生成できるようになる。
例)
GANの仕組みを、2つの競合店になぞらえて考えると理解しやすい。
• Generator(生成器)=新店舗の料理人
人気店の味を真似して、新作メニュー(偽物)を作ろうと努力する。
• Discriminator(識別器)=老舗店の評論家
新店舗のメニューが「老舗の味かどうか」を厳しく判定する。
新店舗の料理人は、評論家にバレないように味を近づける努力をし続ける。
評論家は、偽物を見破れるように舌を鍛える。
この競争を繰り返すことで、料理人(生成器)の腕はどんどん上がり、ついには本物と見分けがつかない「本格料理(高品質の偽データ)」が生まれるのである。
GANの学習プロセス
GANの学習は、以下の競争的なプロセスで進行する。
1. 生成器が乱数から偽データを作る
2. 識別器が本物と偽物を見分けようとする
3. 識別器の判定結果をもとに、それぞれが改善される
• 生成器:より本物らしい偽物を作る方向へ更新
• 識別器:本物/偽物をより正確に分類する方向へ更新
この繰り返しによって、最終的に生成器は「識別器にも見破れない」レベルのデータを生成できるようになる。
代表的なGANの発展
GANは登場後、多くの拡張モデルが登場している。
DCGAN(2015)
• 畳み込みニューラルネットワーク(CNN)を取り入れたモデル。
• より鮮明でリアリティのある画像が生成可能に。
CycleGAN(2017)
• スタイル変換(画像から画像へ)を可能にするモデル。
• 馬→シマウマ、夏→冬、写真→絵画といった変換が行える。
StyleGAN(2018)
• 高品質な人物画像生成を可能にした GAN の一種。
• スタイル(粗→中間→細)を分離して制御できる「スタイルベース生成器」を採用。
GANの活用シーン
GANは近年の生成AI技術の基盤として広く利用されている。
• 画像生成(写真風画像、アート、アイコン)
• データ拡張(医療データ・少量データの補強)
• スタイル変換(モネ風に変換、線画をカラー化)
• 超解像(低解像度画像を高解像度に変換)
• 動画生成・補間
• 音声生成・声質変換
特にデータが不足している領域では、GANが生成する疑似データが非常に強力に作用する。
GANの課題
GANは強力な一方で、いくつかの構造的な課題を抱えている。
① 生成データの判断基準が不透明
「どこまで似ていれば正解か」という明確な基準がない。
例えば同じイラストの模倣でも、人によって「似ている/似ていない」の判断が異なる。
② 動作の不具合が多い
GANの学習は繊細であり、よく以下の問題が発生する。
• 勾配消失問題
識別器が強すぎると生成器が学習できず、更新が進まない。
• モード崩壊
生成器が「特定パターンの画像ばかり」出力する状態に陥る。
多様性が失われるため、実用性が下がる。
これらは、GANの学習が安定しにくい理由として知られている。
生成AI
生成AI(Generative AI)とは、「文章・画像・音声・動画などの新しいデータを生成するAI全体」を指す広い概念である。
| 比較項目 | 生成AI(Generative AI) | GAN(Generative Adversarial Network) |
|---|---|---|
| 位置づけ | AIの大きなカテゴリ(概念) | 生成AIの一つの技術 |
| できること | 文章・画像・音声・動画などあらゆる生成 | 主に画像生成・画像変換 |
| 仕組み | 多様(LLM、拡散モデル、VAE、GANなど) | 生成器と識別器の競争による生成 |
| 例 | ChatGPT、Midjourney、Stable Diffusion | DCGAN、StyleGAN、CycleGAN |
| 範囲 | 非常に広い | 技術的に限定されたモデルの1種 |
生成AIが生成できるものは幅広く、以下のようなものも生成できる。
-
文章
-
画像
-
音楽
-
動画
-
プログラムコード
-
音声 など
生成AIは、深層学習(ディープラーニング)に基づいて構築されるモデルで、特に近年登場した 大規模生成モデル によって急速に発展し。
生成AIの特徴
従来のAI(識別系AI:Discriminative AI)は「入力されたデータが正解かどうかを分類する」ことが中心だったが、生成AIはその逆で、データの分布を学習し、新しいデータを生成する点が大きな違いである。
例)
-
ChatGPT(文章生成)
-
Stable Diffusion(画像生成)
-
Whisper(音声→文字起こし)
生成AIの基本的な使い方
生成AIは、モデルごとに入力形式が異なる。
| AIの種類 | 入力形式 |
|---|---|
| テキスト生成AI | テキスト(プロンプト) |
| 画像生成AI | テキスト or 画像 |
| 音声生成 / 文字起こしAI | 音声データ |
● テキスト生成(例:ChatGPT)
プロンプト(指示文)を入力して回答を生成。
● 画像生成(例:Stable Diffusion)
テキストを入力 → その内容に基づく新しい画像が生成される。画像を学習させてスタイルを模倣させることも可能。
● 音声生成(例:VALL-E)
短い音声サンプルからその話者の声を再現。
生成AIと従来AIの違い
● 従来のAI(識別系AI)
入力を「分類」するのが主な役割
例:OCR、画像認識、異常検知
● 生成AI(生成系AI)
新しいデータを「生成」する
例:文章生成、画像生成、動画生成
生成AIは自律的に判断する能力はなく、深い理解や意識はなく、統計的な推測に基づく生成するため、「弱いAI」に分類される
参考
