NLP完全チートシート（最終まとめ）【G検定対策】 | AI・データサイエンス・IT学習ノート

NLP完全チートシート（最終まとめ）は頻出論点を整理して得点力につなげる学習テーマです。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk nlp cheatsheet

G検定トップ＞ NLP完全チートシート（最終まとめ）【G検定対策】

まず結論

NLP（自然言語処理）は「文章をどう数値化し、どう意味を扱うか」が本質。
G検定では「頻度・意味・文脈のどれを扱っているか」を見抜けば解ける。

直感的な全体像

NLP手法は、次の進化の流れで理解すると一発。

数える（BoW）
重要度を付ける（TF-IDF）
意味を表す（Word2Vec）
文脈を理解する（BERT）

👉 どこまで扱えるかで手法が決まる。

定義・仕組み（手法別まとめ）

BoW（Bag of Words）

単語の出現回数で文章を表現
語順・意味は考慮しない

👉 「数えるだけ」

TF-IDF

BoWに重要度の重みを付与
文書内では多く、全体では少ない単語を重視

👉 「珍しくて重要な単語」

One-hot表現

単語IDを 0/1 のベクトルで表現
語彙数＝次元数、意味は持たない

👉 「番号札」

分散表現（Distributed Representation）

単語を 低次元ベクトルで表現
意味的に近い単語は近い位置

👉 「意味を距離で表す」

Word2Vec

単語の意味的類似性を学習
静的分散表現（文脈に依存しない）

CBOW / Skip-gram

CBOW：周囲 → 中心
Skip-gram：中心 → 周囲

👉 「単語の意味」

Embedding層

単語ID → 意味ベクトルに変換
学習によって重みが更新される

👉 「IDを意味に変換する部品」

Attention / Self-Attention

単語同士の重要度を計算
文脈理解の中核技術

👉 「どの単語を見るかを決める」

Transformer

Self-Attentionを中心とした構造
並列処理が可能

Encoder / Decoder

Encoder：理解（双方向）
Decoder：生成（一方向）

BERT

Transformer Encoderのみ
文脈を考慮した分散表現
意味理解が得意

👉 「文脈付き意味」

GPT

Transformer Decoderのみ
次単語予測による生成

👉 「文章生成」

いつ使う？（使い分け早見）

目的	手法
単語数を使う	BoW
単語の重要度	TF-IDF
単語の意味	Word2Vec
文脈理解	BERT
文章生成	GPT

G検定ひっかけポイント総まとめ

ここを見れば切れます 👇

❌ よくある誤解

TF-IDFは意味を理解する → ❌
Word2Vecは文脈を理解する → ❌
BoWは語順を考慮する → ❌
BERTは出現回数を見る → ❌

⭕ 正しい判断基準

出現回数 → BoW
重要度 → TF-IDF
意味 → Word2Vec
文脈 → BERT
生成 → GPT

まとめ（試験直前用）

NLPは「数 → 重要度 → 意味 → 文脈」の進化
BoW / TF-IDF：頻度系
Word2Vec：意味系
BERT：文脈系
GPT：生成系
迷ったら「文脈を考慮するか？」で切る

🔗 関連記事

🏠 G検トップに戻る