VAE・GAN・Pix2Pixの違い【最終チートシート｜G検定対策】 | AI・データサイエンス・IT学習ノート

gk neural_network cheatsheet

G検定トップ＞ VAE・GAN・Pix2Pixの違い【最終チートシート｜G検定対策】

まず結論

VAE・GAN・Pix2Pixはすべて生成モデルだが、G検定では「何を入力として、何を出力するか」「条件の有無」で明確に使い分ける必要がある。

直感的な説明

この3つは、スタート地点とゴールが違うモデルです。

VAE：
- 何もないところ（ノイズ）から画像を作る
GAN：
- ランダムにリアルっぽい画像を作る
Pix2Pix：
- ある画像を、別の画像に変換する

同じ「生成」でも、

作る変換する

の違いがある、と考えると整理しやすいです。

定義・仕組み

VAE（Variational Autoencoder）

入力：ランダムノイズ（潜在変数）
出力：新しい画像
特徴：
- 確率モデル
- 潜在空間を学習

GAN（Generative Adversarial Network）

入力：ランダムノイズ
出力：新しい画像
特徴：
- Generator と Discriminator の対戦
- リアルさを重視

Pix2Pix

入力：画像
出力：対応する別の画像
特徴：
- Conditional GAN の一種
- 画像ペアを使う教師あり学習

いつ使う？（得意・不得意）

VAEが向く場面

潜在表現を扱いたい
データの分布をなめらかに表現したい

GANが向く場面

とにかくリアルな画像を生成したい
条件指定が不要な場合

Pix2Pixが向く場面

画像→画像変換
入力と出力が1対1対応する問題

G検定ひっかけポイント

G検定では、「生成モデル」という言葉だけで判断させようとする選択肢が出ます。

よくある混同

VAE と GAN
GAN と Pix2Pix

正誤を切る判断基準

入力が画像？ → Pix2Pix
入力がノイズ？ → VAE / GAN
画像ペアを使う？ → Pix2Pix
潜在空間・確率モデル？ → VAE
対戦学習でリアルさ重視？ → GAN

まとめ（試験直前用）

3つとも生成モデルだが役割が違う
VAE：ノイズ → 画像（確率モデル）
GAN：ノイズ → 画像（リアルさ重視）
Pix2Pix：画像 → 画像（Conditional GAN）
G検定では「入力と条件」で即判断

🔗 関連記事

🏠 G検トップに戻る