Skip to the content.

G検定トップ > Flamingo(マルチモーダルFew-shotモデル)とは?G検定対策

まず結論

  • Flamingo(フラミンゴ)とは、画像とテキストを同時に扱い、少数ショット(Few-shot)学習に強いマルチモーダルモデルである。
  • G検定では「何ができるモデルか」「何専用ではないか」を問われることが多い。

直感的な説明

Flamingoは、
「写真を見せて、少し説明すると、すぐに意図を理解して答えてくれるAI」のイメージです。

  • 画像を見る力(視覚)
  • 文章を理解する力(言語)
  • 少ない例から察する力(Few-shot)

これらを同時に使えるのが特徴です。

「構文解析が得意」「音声認識専用」「医療データ特化」
といった専門職AIではなく、
汎用的に画像+テキストを扱えるAIだと考えると分かりやすいです。

定義・仕組み

Flamingoは DeepMind が開発したマルチモーダルモデルです。

主な特徴は以下の通りです。

  • 画像エンコーダ(視覚情報を処理)
  • 大規模言語モデル(テキスト理解)
  • Perceiver Resampler を使って画像特徴を言語モデルに接続
  • Attention(注意機構) により画像と文章を結びつける

重要なのは、

  • Transformerベースではあるが、NLP専用モデルではない
  • ASR(音声認識)モデルでもない
  • 時系列モデルでもない

という点です。

いつ使う?(得意・不得意)

得意なこと

  • 画像+テキストの質問応答
  • 画像内容の説明
  • 少数例(Few-shot)でのタスク適応
  • マルチモーダル理解が必要な場面

不得意・注意点

  • 音声 → テキスト変換(ASR専用ではない)
  • 医療・金融など特定分野に特化したモデルではない
  • 単なる構文解析・文法解析用モデルではない

G検定ひっかけポイント

G検定では次のような混同を狙ってきます

  • ❌「構文解析に特化したNLPモデル」
  • ❌「音声認識(ASR)の一種」
  • ❌「医療データ用の時系列モデル」

判断基準

  • 画像が関係していたら → マルチモーダル
  • Few-shot が強調されていたら → Flamingo
  • 音声・医療・構文解析が主語なら → 別モデル

選択肢に
「画像とテキスト」「少数ショット」「マルチモーダル」
がそろっていたら Flamingoが正解候補です。

まとめ(試験直前用)

  • Flamingoは 画像+テキストを扱うマルチモーダルモデル
  • Few-shot 学習に強いのが最大の特徴
  • ASR・構文解析・医療特化モデルではない
  • G検定では「何専用ではないか」を切るのがコツ
  • 「画像 × テキスト × Few-shot」→ Flamingo

🔗 関連記事


🏠 G検トップに戻る