0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

生成モデルとGAN(敵対的生成ネットワーク)

Last updated at Posted at 2025-12-09

GAN

敵対的生成ネットワーク(GAN/Generative Adversarial Networks)とは、2種類のニューラルネットワークを戦わせながらデータ生成を行うためのモデルである。2014年に機械学習研究者イアン・グッドフェローらによって「Generative Adversarial Nets」という論文で初めて提唱された。

GANは、機械学習における生成モデルに分類される。生成モデルとは、与えられたデータからその構造や特徴を学習し、新たなデータを生成するモデルである。一方、画像が何であるかを判別するモデルは識別モデルと呼ばれ、この2つは目的が異なる。

GANが「敵対的生成ネットワーク」と呼ばれる理由は、生成モデル(Generator)と識別モデル(Discriminator)が互いに競い合いながら学習を進める構造を取るためである。

GANの構造:生成器と識別器

GANは以下の2つのネットワークで構成される。

A. Generator(生成器)
• 乱数(通常は正規分布などに従う)を入力として受け取り、新しいデータを生成する。
• 目的は「識別器に本物だと思わせる偽物を作ること」である。

B. Discriminator(識別器)
• 入力されたデータが 本物(訓練データ) か 生成器の偽物 かを判別する。
• 目的は「生成器を見破ること」である。

この2つが交互に改善されていくことで、最終的には本物と見分けがつかないようなデータを生成できるようになる。

image.png

例)

GANの仕組みを、2つの競合店になぞらえて考えると理解しやすい。
• Generator(生成器)=新店舗の料理人
 人気店の味を真似して、新作メニュー(偽物)を作ろうと努力する。
• Discriminator(識別器)=老舗店の評論家
 新店舗のメニューが「老舗の味かどうか」を厳しく判定する。

新店舗の料理人は、評論家にバレないように味を近づける努力をし続ける。
評論家は、偽物を見破れるように舌を鍛える。

この競争を繰り返すことで、料理人(生成器)の腕はどんどん上がり、ついには本物と見分けがつかない「本格料理(高品質の偽データ)」が生まれるのである。

GANの学習プロセス

GANの学習は、以下の競争的なプロセスで進行する。
1. 生成器が乱数から偽データを作る
2. 識別器が本物と偽物を見分けようとする
3. 識別器の判定結果をもとに、それぞれが改善される
• 生成器:より本物らしい偽物を作る方向へ更新
• 識別器:本物/偽物をより正確に分類する方向へ更新

この繰り返しによって、最終的に生成器は「識別器にも見破れない」レベルのデータを生成できるようになる。

代表的なGANの発展

GANは登場後、多くの拡張モデルが登場している。

DCGAN(2015)

• 畳み込みニューラルネットワーク(CNN)を取り入れたモデル。
• より鮮明でリアリティのある画像が生成可能に。

CycleGAN(2017)

• スタイル変換(画像から画像へ)を可能にするモデル。
• 馬→シマウマ、夏→冬、写真→絵画といった変換が行える。

StyleGAN(2018)

• 高品質な人物画像生成を可能にした GAN の一種。
• スタイル(粗→中間→細)を分離して制御できる「スタイルベース生成器」を採用。

GANの活用シーン

GANは近年の生成AI技術の基盤として広く利用されている。
• 画像生成(写真風画像、アート、アイコン)
• データ拡張(医療データ・少量データの補強)
• スタイル変換(モネ風に変換、線画をカラー化)
• 超解像(低解像度画像を高解像度に変換)
• 動画生成・補間
• 音声生成・声質変換

特にデータが不足している領域では、GANが生成する疑似データが非常に強力に作用する。

GANの課題

GANは強力な一方で、いくつかの構造的な課題を抱えている。

① 生成データの判断基準が不透明

「どこまで似ていれば正解か」という明確な基準がない。
例えば同じイラストの模倣でも、人によって「似ている/似ていない」の判断が異なる。

② 動作の不具合が多い

GANの学習は繊細であり、よく以下の問題が発生する。
• 勾配消失問題
 識別器が強すぎると生成器が学習できず、更新が進まない。
• モード崩壊
 生成器が「特定パターンの画像ばかり」出力する状態に陥る。
 多様性が失われるため、実用性が下がる。

これらは、GANの学習が安定しにくい理由として知られている。

生成AI

生成AI(Generative AI)とは、「文章・画像・音声・動画などの新しいデータを生成するAI全体」を指す広い概念である。

比較項目 生成AI(Generative AI) GAN(Generative Adversarial Network)
位置づけ AIの大きなカテゴリ(概念) 生成AIの一つの技術
できること 文章・画像・音声・動画などあらゆる生成 主に画像生成・画像変換
仕組み 多様(LLM、拡散モデル、VAE、GANなど) 生成器と識別器の競争による生成
ChatGPT、Midjourney、Stable Diffusion DCGAN、StyleGAN、CycleGAN
範囲 非常に広い 技術的に限定されたモデルの1種

生成AIが生成できるものは幅広く、以下のようなものも生成できる。

  • 文章

  • 画像

  • 音楽

  • 動画

  • プログラムコード

  • 音声 など

生成AIは、深層学習(ディープラーニング)に基づいて構築されるモデルで、特に近年登場した 大規模生成モデル によって急速に発展し。

生成AIの特徴

従来のAI(識別系AI:Discriminative AI)は「入力されたデータが正解かどうかを分類する」ことが中心だったが、生成AIはその逆で、データの分布を学習し、新しいデータを生成する点が大きな違いである。

例)

  • ChatGPT(文章生成)

  • Stable Diffusion(画像生成)

  • Whisper(音声→文字起こし)

生成AIの基本的な使い方

生成AIは、モデルごとに入力形式が異なる。

AIの種類 入力形式
テキスト生成AI テキスト(プロンプト)
画像生成AI テキスト or 画像
音声生成 / 文字起こしAI 音声データ

● テキスト生成(例:ChatGPT)

プロンプト(指示文)を入力して回答を生成。

● 画像生成(例:Stable Diffusion)

テキストを入力 → その内容に基づく新しい画像が生成される。画像を学習させてスタイルを模倣させることも可能。

● 音声生成(例:VALL-E)

短い音声サンプルからその話者の声を再現。

生成AIと従来AIの違い

● 従来のAI(識別系AI)

入力を「分類」するのが主な役割
例:OCR、画像認識、異常検知

● 生成AI(生成系AI)

新しいデータを「生成」する
例:文章生成、画像生成、動画生成

生成AIは自律的に判断する能力はなく、深い理解や意識はなく、統計的な推測に基づく生成するため、「弱いAI」に分類される

参考

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?