Skip to the content.

G検定トップ > DALL·E(テキストから画像を生成するモデル)とは?G検定対策

まず結論

  • DALL·E(ダリ)とは、テキスト(文章)を入力として画像を生成するマルチモーダル生成モデルである。
  • G検定では「生成モデルであること」「CLIPとの役割の違い」がよく問われる。

直感的な説明

DALL·Eは、
「文章を読むと、その内容どおりの絵を描いてくれるAI」です。

例:

  • 「宇宙を飛ぶ柴犬」
  • 「未来都市の夜景」

といった文章を入力すると、
👉 そのイメージに合った画像を新しく作り出す
のがDALL·Eです。

「画像を選ぶAI」ではなく、
画像を“描くAI”だと覚えると混乱しません。

定義・仕組み

DALL·Eは OpenAI が開発した 画像生成モデルです。

特徴:

  • 入力:テキスト(自然言語)
  • 出力:画像
  • Transformerベースの生成モデル
  • 言語と画像の対応関係を学習

重要ポイント:

  • 生成モデルである
  • 分類や対応付けが主目的ではない
  • マルチモーダルだが「生成」に特化

いつ使う?(得意・不得意)

得意なこと

  • テキストからの画像生成
  • 創作・デザイン用途
  • イメージの可視化

不得意・注意点

  • 画像と文章の類似度判定(CLIP向き)
  • 画像内容の詳細な質問応答(BLIP / Flamingo向き)
  • Few-shot学習が主目的ではない

G検定ひっかけポイント

G検定では次の混同が頻出です。

  • ❌「CLIPと同じ」
  • ❌「画像とテキストを対応付けるだけ」
  • ❌「質問応答モデル」

判断基準(超重要)

  • 新しい画像を作る? → DALL·E
  • 画像と文章を比べる? → CLIP
  • 説明文を生成する? → BLIP
  • 画像+文章で答える? → Flamingo

選択肢に
「画像を生成」「テキストから画像」
と書いてあれば DALL·Eを選ぶ

まとめ(試験直前用)

  • DALL·Eは テキストから画像を生成するモデル
  • 生成モデルである点が最重要
  • CLIPは生成しない
  • BLIPは説明文生成
  • 「描くAI」=DALL·E

🔗 関連記事


🏠 G検トップに戻る