Skip to the content.

G検定トップ > SQuAD(Stanford Question Answering Dataset)

まず結論

  • SQuADは自然言語処理(NLP)の質問応答データセット
  • 画像データセットではない
  • 文書中から 答えの位置を抽出するタスク が中心

👉 G検定では
「画像ではないデータセット」 と即判断できるかがポイント。


直感的な説明

SQuADは一言で言うと、

文章を読んで、質問に答えるAIのためのデータセット

です。

人間が文章を読んで
「この質問の答えは、ここに書いてある」
と探すのと同じことを、AIにさせます。


定義・仕組み

SQuADとは?

  • Stanford Question Answering Dataset
  • 英文の文章(Context)と
  • それに対する質問(Question)
  • 文章中の 答えの位置(Span)

のセットで構成されています。


何を学習する?

  • 文の意味理解
  • 文脈理解
  • 質問に対応する 該当箇所の抽出

👉
分類ではなく 抽出型質問応答(Extractive QA)


どんなモデルで使われる?

  • RNN(LSTM / GRU)
  • Attention
  • Transformer / BERT 系

特に
BERTの評価ベンチマーク として有名です。


画像データセットとの違い(超重要)

項目 SQuAD MNIST / CIFAR / VOC
データ形式 文章 画像
分野 NLP 画像認識
主タスク 質問応答 分類・検出
CNN使用 しない する

いつ使う?(得意・不得意)

得意な用途

  • 質問応答システム
  • 文書検索
  • チャットボット評価

不向きな用途

  • 画像認識
  • 物体検出
  • セグメンテーション

G検定ひっかけポイント

❌ よくある誤解

  • ❌ 「有名だから画像データセット」
  • ❌ 「質問+画像のデータ」
  • ❌ 「分類タスク用」

✅ 正しい理解

  • 文章データ
  • NLP
  • 質問応答

試験での即断キーワード

  • 「質問応答」
    SQuAD
  • 「文章から答えを抽出」
    SQuAD
  • 「画像データセット」
    → ❌ SQuADではない

まとめ(試験直前用)

  • SQuAD = NLPの質問応答データセット
  • 画像ではない
  • 抽出型QA
  • Transformer系と相性が良い

👉 次は
NLPデータセットまとめ(GLUE / SQuAD / IMDB)
に進むと、分野横断のひっかけに強くなります。

🔗 関連記事


🏠 G検トップに戻る