gk cheatsheet neural_network attention
G検定トップ
> マルチモーダルモデル総まとめ【最終チートシート|G検定対策】
まず結論
- マルチモーダルモデルは「何を入力して、何を出力するか」で瞬時に切り分ける。
- G検定では 生成するのか/しないのか が最大の分岐点になる。
直感的な説明
G検定の選択肢は、だいたいこう攻めてきます。
- 名前は全部それっぽい
- TransformerもAttentionも全部出てくる
- 違いは 「役割」だけ
だから覚えるべきは暗記ではなく👇
👉 「このモデル、何の仕事?」
です。
定義・仕組み
マルチモーダルモデルとは、
- 画像
- テキスト
- 環境情報 など
複数のモダリティ(情報形式)を扱うモデルの総称です。
ただし、
- 対応付け
- 生成
- 質問応答
- Few-shot
- ロボット制御
など、目的はモデルごとに全く違います。
いつ使う?(得意・不得意)
🔴 生成するモデル
| モデル | 得意なこと | |—|—| | DALL·E | テキスト → 画像生成 | | BLIP | 画像 → 説明文・質問応答 | | Unified-IO | 入出力統一で生成も理解も |
🔵 生成しないモデル
| モデル | 得意なこと | |—|—| | CLIP | 画像 × テキストの対応付け | | PaLM | テキスト理解・生成(画像なし) |
🟢 特化系
| モデル | 特徴 | |—|—| | Flamingo | 画像×テキスト × Few-shot | | PaLM-E | 言語+画像+環境(ロボット) |
G検定ひっかけポイント
G検定では、次の軸で混同させてきます。
① 生成できるか?
- ❌ CLIPは生成しない
- ✅ DALL·E / BLIP は生成する
② 画像は関係あるか?
- ❌ PaLM は画像を扱わない
- ✅ Flamingo / CLIP / BLIP は画像あり
③ Few-s
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- NISC・IPA・JPCERT/CC・CSIRTの違いまとめ【一発で切れるチートシート】
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
🏠 G検トップに戻る