マルチモーダルモデル総まとめ【最終チートシート｜G検定対策】

G検定トップ＞マルチモーダルモデル総まとめ【最終チートシート｜G検定対策】

まず結論

G検定の選択肢は、だいたいこう攻めてきます。

だから覚えるべきは暗記ではなく👇
👉 「このモデル、何の仕事？」
です。

マルチモーダルモデルとは、

複数のモダリティ（情報形式）を扱うモデルの総称です。

ただし、

など、目的はモデルごとに全く違います。

モデル	得意なこと
CLIP	画像 × テキストの対応付け
PaLM	テキスト理解・生成（画像なし）

モデル	特徴
Flamingo	画像×テキスト × Few-shot
PaLM-E	言語＋画像＋環境（ロボット）

G検定では、次の軸で混同させてきます。

モデル	主な入力	主な役割・出力	判断キーワード
CLIP	画像＋テキスト	対応付け・類似度計算	コントラスト学習、ゼロショット分類
BLIP	画像＋テキスト	キャプション生成・質問応答	理解と生成
DALL·E	テキスト	画像生成	Text-to-Image
Flamingo	画像＋テキスト	Few-shotでの理解・応答	少数例、インターリーブ入力
PaLM	テキスト	言語理解・文章生成	大規模言語モデル
PaLM-E	テキスト＋画像＋環境情報	ロボット・身体化タスク	Environment、Embodied

PaLMは複数モダリティを扱う比較対象として掲載していますが、PaLM単体はテキスト中心の言語モデルです。「マルチモーダル」というだけでPaLMを選ばないようにします。