gk nlp cheatsheet
G検定トップ
> NLP完全チートシート(最終まとめ)【G検定対策】
まず結論
- NLP(自然言語処理)は「文章をどう数値化し、どう意味を扱うか」が本質。
- G検定では「頻度・意味・文脈のどれを扱っているか」を見抜けば解ける。
直感的な全体像
NLP手法は、次の進化の流れで理解すると一発。
- 数える(BoW)
- 重要度を付ける(TF-IDF)
- 意味を表す(Word2Vec)
- 文脈を理解する(BERT)
👉 どこまで扱えるかで手法が決まる。
定義・仕組み(手法別まとめ)
BoW(Bag of Words)
- 単語の出現回数で文章を表現
- 語順・意味は考慮しない
👉 「数えるだけ」
TF-IDF
- BoWに重要度の重みを付与
- 文書内では多く、全体では少ない単語を重視
👉 「珍しくて重要な単語」
One-hot表現
- 単語IDを 0/1 のベクトルで表現
- 語彙数=次元数、意味は持たない
👉 「番号札」
分散表現(Distributed Representation)
- 単語を 低次元ベクトルで表現
- 意味的に近い単語は近い位置
👉 「意味を距離で表す」
Word2Vec
- 単語の意味的類似性を学習
- 静的分散表現(文脈に依存しない)
CBOW / Skip-gram
- CBOW:周囲 → 中心
- Skip-gram:中心 → 周囲
👉 「単語の意味」
Embedding層
- 単語ID → 意味ベクトル に変換
- 学習によって重みが更新される
👉 「IDを意味に変換する部品」
Attention / Self-Attention
- 単語同士の重要度を計算
- 文脈理解の中核技術
👉 「どの単語を見るかを決める」
Transformer
- Self-Attentionを中心とした構造
- 並列処理が可能
Encoder / Decoder
- Encoder:理解(双方向)
- Decoder:生成(一方向)
BERT
- Transformer Encoderのみ
- 文脈を考慮した分散表現
- 意味理解が得意
👉 「文脈付き意味」
GPT
- Transformer Decoderのみ
- 次単語予測による生成
👉 「文章生成」
いつ使う?(使い分け早見)
| 目的 | 手法 |
|---|---|
| 単語数を使う | BoW |
| 単語の重要度 | TF-IDF |
| 単語の意味 | Word2Vec |
| 文脈理解 | BERT |
| 文章生成 | GPT |
G検定ひっかけポイント総まとめ
ここを見れば切れます 👇
❌ よくある誤解
- TF-IDFは意味を理解する → ❌
- Word2Vecは文脈を理解する → ❌
- BoWは語順を考慮する → ❌
- BERTは出現回数を見る → ❌
⭕ 正しい判断基準
- 出現回数 → BoW
- 重要度 → TF-IDF
- 意味 → Word2Vec
- 文脈 → BERT
- 生成 → GPT
まとめ(試験直前用)
- NLPは「数 → 重要度 → 意味 → 文脈」の進化
- BoW / TF-IDF:頻度系
- Word2Vec:意味系
- BERT:文脈系
- GPT:生成系
- 迷ったら「文脈を考慮するか?」で切る
🔗 関連記事
- NISC・IPA・JPCERT/CC・CSIRTの違いまとめ【一発で切れるチートシート】
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- データ・AI利活用における留意事項とは?【DS検定リテラシー】
- データを読む・説明する・扱うとは?データリテラシー実践ガイド【DS検定】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
🏠 G検トップに戻る