Flamingo（マルチモーダルFew-shotモデル）とは？G検定対策 | AI・データサイエンス・IT学習ノート

Flamingo（マルチモーダルFew-shotモデル）はG検定対策を理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk neural_network attention

G検定トップ＞ Flamingo（マルチモーダルFew-shotモデル）とは？G検定対策

まず結論

Flamingo（フラミンゴ）とは、画像とテキストを同時に扱い、少数ショット（Few-shot）学習に強いマルチモーダルモデルである。
G検定では「何ができるモデルか」「何専用ではないか」を問われることが多い。

直感的な説明

Flamingoは、
「写真を見せて、少し説明すると、すぐに意図を理解して答えてくれるAI」のイメージです。

画像を見る力（視覚）
文章を理解する力（言語）
少ない例から察する力（Few-shot）

これらを同時に使えるのが特徴です。

「構文解析が得意」「音声認識専用」「医療データ特化」
といった専門職AIではなく、
汎用的に画像＋テキストを扱えるAIだと考えると分かりやすいです。

定義・仕組み

Flamingoは DeepMind が開発したマルチモーダルモデルです。

主な特徴は以下の通りです。

画像エンコーダ（視覚情報を処理）
大規模言語モデル（テキスト理解）
Perceiver Resampler を使って画像特徴を言語モデルに接続
Attention（注意機構） により画像と文章を結びつける

重要なのは、

Transformerベースではあるが、NLP専用モデルではない
ASR（音声認識）モデルでもない
時系列モデルでもない

という点です。

いつ使う？（得意・不得意）

得意なこと

画像＋テキストの質問応答
画像内容の説明
少数例（Few-shot）でのタスク適応
マルチモーダル理解が必要な場面

不得意・注意点

音声 → テキスト変換（ASR専用ではない）
医療・金融など特定分野に特化したモデルではない
単なる構文解析・文法解析用モデルではない

G検定ひっかけポイント

G検定では次のような混同を狙ってきます。

❌「構文解析に特化したNLPモデル」
❌「音声認識（ASR）の一種」
❌「医療データ用の時系列モデル」

判断基準

画像が関係していたら → マルチモーダル
Few-shot が強調されていたら → Flamingo
音声・医療・構文解析が主語なら → 別モデル

選択肢に
「画像とテキスト」「少数ショット」「マルチモーダル」
がそろっていたら Flamingoが正解候補です。

まとめ（試験直前用）

Flamingoは 画像＋テキストを扱うマルチモーダルモデル
Few-shot 学習に強いのが最大の特徴
ASR・構文解析・医療特化モデルではない
G検定では「何専用ではないか」を切るのがコツ
「画像 × テキスト × Few-shot」→ Flamingo

🔗 関連記事

🏠 G検トップに戻る