CLIP（画像とテキストの対応付けモデル）とは？G検定対策 | AI・データサイエンス・IT学習ノート

最終更新日：2026年5月6日

gk neural_network attention

G検定トップ＞ CLIP（画像とテキストの対応付けモデル）とは？G検定対策

まず結論

CLIP（Contrastive Language–Image Pretraining）とは、画像とテキストの対応関係を学習するマルチモーダルモデルである。
G検定では「生成モデルではない」「対応付けが目的」という点がよく問われる。

直感的な説明

CLIPは、
「この画像に一番合う文章はどれ？」を当てるAIです。

画像を見せる
複数の文章候補を出す
一番意味が合う組み合わせを選ぶ

文章を“作る”のではなく、
👉 画像と文章の相性を判断するAI
と考えると分かりやすいです。

定義・仕組み

CLIPは OpenAI が提案した マルチモーダル学習手法です。

仕組みのポイント：

画像エンコーダ（画像をベクトル化）
テキストエンコーダ（文章をベクトル化）
コントラスト学習（Contrastive Learning） により
「正しい画像×文章は近く、間違いは遠く」なるよう学習

重要：

生成モデルではない
分類・対応付けが主目的
Transformerが使われるが、NLP専用ではない

いつ使う？（得意・不得意）

得意なこと

ゼロショット画像分類（Zero-shot classification）
画像検索
画像と文章の対応判定
事前ラベルが少ない分類タスク

不得意・注意点

文章生成はできない
画像生成はできない
詳細な説明文を作る用途には不向き

G検定ひっかけポイント

G検定では次の混同が頻出です。

❌「画像キャプションを生成するモデル」
❌「画像×テキストの質問応答モデル」
❌「Flamingoと同じ」

判断基準

生成する？ → CLIPではない
対応付け・類似度？ → CLIP
質問に文章で答える？ → Flamingo / PaLM-E

選択肢に
「対応関係」「コントラスト学習」「ゼロショット分類」
があれば CLIPが有力です。

まとめ（試験直前用）

CLIPは 画像とテキストの対応付けモデル
生成はしない
コントラスト学習を使う
ゼロショット分類が得意
「対応付け」ならCLIP