Visual Question Answering（VQA）とは？画像に質問して答えるAI【G検定対策】 | AI・データサイエンス・IT学習ノート

Visual Question Answering（VQA）は画像に質問して答えるAIを理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk vision nlp

G検定トップ＞ Visual Question Answering（VQA）とは？画像に質問して答えるAI【G検定対策】

まず結論

Visual Question Answering（VQA）とは、画像を入力として受け取り、その内容に関する自然言語の質問に答えるマルチモーダルAIタスクである。
G検定では「画像生成ではない」「翻訳ではない」点が問われる。

直感的な説明

VQAは一言で言うと、

「この画像について質問すると、AIが答えてくれる」

タスクです。

例：

画像：「犬がボールをくわえている写真」
質問：「犬は何をくわえていますか？」
回答：「ボール」

👉 画像を見る力＋文章を理解する力
👉 両方を同時に使うのがポイントです。

定義・仕組み

定義

画像（視覚情報）と質問文（言語情報）を入力として、
それらを統合し、自然言語または選択肢で回答を出力するタスク

仕組みの概要

CNNやVision Transformerで画像特徴を抽出
RNNやTransformerで質問文をエンコード
両者をAttentionなどで統合
回答を生成または分類

重要：

画像理解＋言語理解の融合
単なる画像分類でも文章生成でもない

いつ使う？（得意・不得意）

得意な応用例

視覚アシスタント
教育・医療支援
ロボットの環境理解
視覚障害者支援

注意点

高品質なアノテーションが必要
質問の曖昧さに弱い
常識推論が必要な場合は難易度が高い

G検定ひっかけポイント

ここが一番重要です。

よくある誤解

❌「文章から画像を生成する技術」
❌「画像とテキストを翻訳する技術」
❌「視覚特徴を使ったクラスタリング」

正しい判断基準

質問がある → VQA
画像が入力 → VQA
答えが自然言語 → VQA

問題文に
「画像を入力」「質問に答える」
とあれば VQA。

類似タスクとの違い（超頻出）

VQA：画像＋質問 → 回答
画像生成：テキスト → 画像
画像キャプション生成：画像 → 説明文
CLIP：画像とテキストの対応付け

👉 「質問があるか？」で切る

まとめ（試験直前用）

VQAは画像に質問して答えるタスク
視覚＋言語のマルチモーダルAI
画像生成や翻訳ではない
質問応答が本質
G検定の定番ひっかけ

🔗 関連記事

🏠 G検トップに戻る