DALL·E（テキストから画像を生成するモデル）とは？G検定対策 | AI・データサイエンス・IT学習ノート

最終更新日：2026年5月15日

gk neural_network attention

G検定トップ＞ DALL·E（テキストから画像を生成するモデル）とは？G検定対策

まず結論

DALL·E（ダリ）とは、テキスト（文章）を入力として画像を生成するマルチモーダル生成モデルである。
G検定では「生成モデルであること」「CLIPとの役割の違い」がよく問われる。

直感的な説明

DALL·Eは、
「文章を読むと、その内容どおりの絵を描いてくれるAI」です。

例：

「宇宙を飛ぶ柴犬」
「未来都市の夜景」

といった文章を入力すると、
👉 そのイメージに合った画像を新しく作り出す
のがDALL·Eです。

「画像を選ぶAI」ではなく、
画像を“描くAI”だと覚えると混乱しません。

定義・仕組み

DALL·Eは OpenAI が開発した 画像生成モデルです。

特徴：

入力：テキスト（自然言語）
出力：画像
Transformerベースの生成モデル
言語と画像の対応関係を学習

重要ポイント：

生成モデルである
分類や対応付けが主目的ではない
マルチモーダルだが「生成」に特化

いつ使う？（得意・不得意）

得意なこと

テキストからの画像生成
創作・デザイン用途
イメージの可視化

不得意・注意点

画像と文章の類似度判定（CLIP向き）
画像内容の詳細な質問応答（BLIP / Flamingo向き）
Few-shot学習が主目的ではない

G検定ひっかけポイント

G検定では次の混同が頻出です。

❌「CLIPと同じ」
❌「画像とテキストを対応付けるだけ」
❌「質問応答モデル」

判断基準（超重要）

新しい画像を作る？ → DALL·E
画像と文章を比べる？ → CLIP
説明文を生成する？ → BLIP
画像＋文章で答える？ → Flamingo

選択肢に
「画像を生成」「テキストから画像」
と書いてあれば DALL·Eを選ぶ。

まとめ（試験直前用）

DALL·Eは テキストから画像を生成するモデル
生成モデルである点が最重要
CLIPは生成しない
BLIPは説明文生成
「描くAI」＝DALL·E

🔗 関連記事

🏠 G検トップに戻る