Skip to the content.

G検定トップ > マルチモーダルモデル総まとめ【最終チートシート|G検定対策】

まず結論

  • マルチモーダルモデルは「何を入力して、何を出力するか」で瞬時に切り分ける。
  • G検定では 生成するのか/しないのか が最大の分岐点になる。

直感的な説明

G検定の選択肢は、だいたいこう攻めてきます。

  • 名前は全部それっぽい
  • TransformerもAttentionも全部出てくる
  • 違いは 「役割」だけ

だから覚えるべきは暗記ではなく👇
👉 「このモデル、何の仕事?」
です。

定義・仕組み

マルチモーダルモデルとは、

  • 画像
  • テキスト
  • 環境情報 など

複数のモダリティ(情報形式)を扱うモデルの総称です。

ただし、

  • 対応付け
  • 生成
  • 質問応答
  • Few-shot
  • ロボット制御

など、目的はモデルごとに全く違います

いつ使う?(得意・不得意)

🔴 生成するモデル

| モデル | 得意なこと | |—|—| | DALL·E | テキスト → 画像生成 | | BLIP | 画像 → 説明文・質問応答 | | Unified-IO | 入出力統一で生成も理解も |

🔵 生成しないモデル

| モデル | 得意なこと | |—|—| | CLIP | 画像 × テキストの対応付け | | PaLM | テキスト理解・生成(画像なし) |

🟢 特化系

| モデル | 特徴 | |—|—| | Flamingo | 画像×テキスト × Few-shot | | PaLM-E | 言語+画像+環境(ロボット) |

G検定ひっかけポイント

G検定では、次の軸で混同させてきます。

① 生成できるか?

  • ❌ CLIPは生成しない
  • ✅ DALL·E / BLIP は生成する

② 画像は関係あるか?

  • ❌ PaLM は画像を扱わない
  • ✅ Flamingo / CLIP / BLIP は画像あり

③ Few-s

🔗 関連記事


🏠 G検トップに戻る