gk nlp dataset
G検定トップ
> SQuAD(Stanford Question Answering Dataset)
まず結論
- SQuADは自然言語処理(NLP)の質問応答データセット
- 画像データセットではない
- 文書中から 答えの位置を抽出するタスク が中心
👉 G検定では
「画像ではないデータセット」 と即判断できるかがポイント。
直感的な説明
SQuADは一言で言うと、
文章を読んで、質問に答えるAIのためのデータセット
です。
人間が文章を読んで
「この質問の答えは、ここに書いてある」
と探すのと同じことを、AIにさせます。
定義・仕組み
SQuADとは?
- Stanford Question Answering Dataset
- 英文の文章(Context)と
- それに対する質問(Question)
- 文章中の 答えの位置(Span)
のセットで構成されています。
何を学習する?
- 文の意味理解
- 文脈理解
- 質問に対応する 該当箇所の抽出
👉
分類ではなく 抽出型質問応答(Extractive QA)
どんなモデルで使われる?
- RNN(LSTM / GRU)
- Attention
- Transformer / BERT 系
特に
BERTの評価ベンチマーク として有名です。
画像データセットとの違い(超重要)
| 項目 | SQuAD | MNIST / CIFAR / VOC |
|---|---|---|
| データ形式 | 文章 | 画像 |
| 分野 | NLP | 画像認識 |
| 主タスク | 質問応答 | 分類・検出 |
| CNN使用 | しない | する |
いつ使う?(得意・不得意)
得意な用途
- 質問応答システム
- 文書検索
- チャットボット評価
不向きな用途
- 画像認識
- 物体検出
- セグメンテーション
G検定ひっかけポイント
❌ よくある誤解
- ❌ 「有名だから画像データセット」
- ❌ 「質問+画像のデータ」
- ❌ 「分類タスク用」
✅ 正しい理解
- 文章データ
- NLP
- 質問応答
試験での即断キーワード
- 「質問応答」
→ SQuAD - 「文章から答えを抽出」
→ SQuAD - 「画像データセット」
→ ❌ SQuADではない
まとめ(試験直前用)
- SQuAD = NLPの質問応答データセット
- 画像ではない
- 抽出型QA
- Transformer系と相性が良い
👉 次は
NLPデータセットまとめ(GLUE / SQuAD / IMDB)
に進むと、分野横断のひっかけに強くなります。
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る