gk neural_network nlp embedding
G検定トップ
> Embedding / Word2Vec
まず結論
- Embeddingは単語やカテゴリをベクトルで表現する方法
- Word2Vecは代表的な単語Embedding手法
- 意味の近さを 数値(ベクトル距離)で扱える ようになる
直感的な説明
Embeddingは、
「単語を意味の地図の中の点として配置する」
イメージです。
- 意味が近い単語は近くに
- 関係が薄い単語は遠くに
配置されるため、 意味的な関係を計算で扱える ようになります。
定義・仕組み
Embeddingとは
- 離散的なID(単語番号など)を
- 連続値ベクトル に変換
する処理です。
One-Hot表現と違い、
- 次元が低い
- 意味情報を持つ
という特徴があります。
Word2Vec
Word2Vecは、
「周囲の単語から、その単語の意味を学習する」
方法です。
代表的な2つの学習方式があります。
CBOW(Continuous Bag of Words)
- 周囲の単語 → 中心単語を予測
特徴
- 学習が速い
- 全体的な意味を捉えやすい
Skip-gram
- 中心単語 → 周囲の単語を予測
特徴
- 低頻度語に強い
- 精度が高い傾向
分散表現の特徴
- 「王 − 男 + 女 ≒ 女王」のような 意味演算 が可能
いつ使う?(得意・不得意)
得意なこと
- 自然言語処理の前処理
- TransformerやRNNへの入力
- 類似語検索
注意点
- 文脈を考慮しない(Word2Vec)
- 同じ単語は常に同じベクトル
文脈を考慮するのが BERT などのモデルです。
G検定ひっかけポイント
- ❌「EmbeddingはOne-Hot表現と同じ」→ 誤り
- ❌「Word2Vecは教師あり学習」→ 誤り
- ✅ Word2Vecは 自己教師あり学習
- ✅ Skip-gramは低頻度語に強い
まとめ(試験直前用)
- Embeddingは 意味を持つベクトル表現
- Word2Vecは代表的手法
- CBOWとSkip-gramの違いを押さえる
👉 これで NLP系トピックは完成 です。
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
🏠 G検トップに戻る