Skip to the content.

G検定トップ > VAE・GAN・Pix2Pixの違い【最終チートシート|G検定対策】

まず結論

VAE・GAN・Pix2Pixはすべて生成モデルだが、G検定では「何を入力として、何を出力するか」「条件の有無」で明確に使い分ける必要がある。

直感的な説明

この3つは、スタート地点とゴールが違うモデルです。

  • VAE

    • 何もないところ(ノイズ)から画像を作る
  • GAN

    • ランダムにリアルっぽい画像を作る
  • Pix2Pix

    • ある画像を、別の画像に変換する

同じ「生成」でも、

作る 変換する

の違いがある、と考えると整理しやすいです。

定義・仕組み

VAE(Variational Autoencoder)

  • 入力:ランダムノイズ(潜在変数)
  • 出力:新しい画像
  • 特徴:

    • 確率モデル
    • 潜在空間を学習

GAN(Generative Adversarial Network)

  • 入力:ランダムノイズ
  • 出力:新しい画像
  • 特徴:

    • Generator と Discriminator の対戦
    • リアルさを重視

Pix2Pix

  • 入力:画像
  • 出力:対応する別の画像
  • 特徴:

    • Conditional GAN の一種
    • 画像ペアを使う教師あり学習

いつ使う?(得意・不得意)

VAEが向く場面

  • 潜在表現を扱いたい
  • データの分布をなめらかに表現したい

GANが向く場面

  • とにかくリアルな画像を生成したい
  • 条件指定が不要な場合

Pix2Pixが向く場面

  • 画像→画像変換
  • 入力と出力が1対1対応する問題

G検定ひっかけポイント

G検定では、「生成モデル」という言葉だけで判断させようとする選択肢が出ます。

よくある混同

  • VAE と GAN
  • GAN と Pix2Pix

正誤を切る判断基準

  • 入力が画像? → Pix2Pix
  • 入力がノイズ? → VAE / GAN
  • 画像ペアを使う? → Pix2Pix
  • 潜在空間・確率モデル? → VAE
  • 対戦学習でリアルさ重視? → GAN

まとめ(試験直前用)

  • 3つとも生成モデルだが役割が違う
  • VAE:ノイズ → 画像(確率モデル)
  • GAN:ノイズ → 画像(リアルさ重視)
  • Pix2Pix:画像 → 画像(Conditional GAN)
  • G検定では「入力と条件」で即判断

🔗 関連記事


🏠 G検トップに戻る