Embedding / Word2Vec | AI・データサイエンス・IT学習ノート

Embedding / Word2Vecは重要ポイントを整理して理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk neural_network nlp embedding

G検定トップ＞ Embedding / Word2Vec

まず結論

Embeddingは単語やカテゴリをベクトルで表現する方法
Word2Vecは代表的な単語Embedding手法
意味の近さを 数値（ベクトル距離）で扱える ようになる

直感的な説明

Embeddingは、

「単語を意味の地図の中の点として配置する」

イメージです。

意味が近い単語は近くに
関係が薄い単語は遠くに

配置されるため、 意味的な関係を計算で扱える ようになります。

定義・仕組み

Embeddingとは

離散的なID（単語番号など）を
連続値ベクトル に変換

する処理です。

One-Hot表現と違い、

次元が低い
意味情報を持つ

という特徴があります。

Word2Vec

Word2Vecは、

「周囲の単語から、その単語の意味を学習する」

方法です。

代表的な2つの学習方式があります。

CBOW（Continuous Bag of Words）

周囲の単語 → 中心単語を予測

特徴

学習が速い
全体的な意味を捉えやすい

Skip-gram

中心単語 → 周囲の単語を予測

特徴

低頻度語に強い
精度が高い傾向

分散表現の特徴

「王 − 男 + 女 ≒ 女王」のような 意味演算 が可能

いつ使う？（得意・不得意）

得意なこと

自然言語処理の前処理
TransformerやRNNへの入力
類似語検索

注意点

文脈を考慮しない（Word2Vec）
同じ単語は常に同じベクトル

文脈を考慮するのが BERT などのモデルです。

G検定ひっかけポイント

❌「EmbeddingはOne-Hot表現と同じ」→ 誤り
❌「Word2Vecは教師あり学習」→ 誤り
✅ Word2Vecは 自己教師あり学習
✅ Skip-gramは低頻度語に強い

まとめ（試験直前用）

Embeddingは 意味を持つベクトル表現
Word2Vecは代表的手法
CBOWとSkip-gramの違いを押さえる

👉 これで NLP系トピックは完成 です。

🔗 関連記事

🏠 G検トップに戻る