gk neural_network cheatsheet
G検定トップ
> VAE・GAN・Pix2Pixの違い【最終チートシート|G検定対策】
まず結論
VAE・GAN・Pix2Pixはすべて生成モデルだが、G検定では「何を入力として、何を出力するか」「条件の有無」で明確に使い分ける必要がある。
直感的な説明
この3つは、スタート地点とゴールが違うモデルです。
-
VAE:
- 何もないところ(ノイズ)から画像を作る
-
GAN:
- ランダムにリアルっぽい画像を作る
-
Pix2Pix:
- ある画像を、別の画像に変換する
同じ「生成」でも、
作る 変換する
の違いがある、と考えると整理しやすいです。
定義・仕組み
VAE(Variational Autoencoder)
- 入力:ランダムノイズ(潜在変数)
- 出力:新しい画像
-
特徴:
- 確率モデル
- 潜在空間を学習
GAN(Generative Adversarial Network)
- 入力:ランダムノイズ
- 出力:新しい画像
-
特徴:
- Generator と Discriminator の対戦
- リアルさを重視
Pix2Pix
- 入力:画像
- 出力:対応する別の画像
-
特徴:
- Conditional GAN の一種
- 画像ペアを使う教師あり学習
いつ使う?(得意・不得意)
VAEが向く場面
- 潜在表現を扱いたい
- データの分布をなめらかに表現したい
GANが向く場面
- とにかくリアルな画像を生成したい
- 条件指定が不要な場合
Pix2Pixが向く場面
- 画像→画像変換
- 入力と出力が1対1対応する問題
G検定ひっかけポイント
G検定では、「生成モデル」という言葉だけで判断させようとする選択肢が出ます。
よくある混同
- VAE と GAN
- GAN と Pix2Pix
正誤を切る判断基準
- 入力が画像? → Pix2Pix
- 入力がノイズ? → VAE / GAN
- 画像ペアを使う? → Pix2Pix
- 潜在空間・確率モデル? → VAE
- 対戦学習でリアルさ重視? → GAN
まとめ(試験直前用)
- 3つとも生成モデルだが役割が違う
- VAE:ノイズ → 画像(確率モデル)
- GAN:ノイズ → 画像(リアルさ重視)
- Pix2Pix:画像 → 画像(Conditional GAN)
- G検定では「入力と条件」で即判断
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- NISC・IPA・JPCERT/CC・CSIRTの違いまとめ【一発で切れるチートシート】
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
🏠 G検トップに戻る