分散表現とは？【One-hotとの比較で理解｜G検定対策】 | AI・データサイエンス・IT学習ノート

分散表現はを理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk nlp machine_learning

G検定トップ＞分散表現とは？【One-hotとの比較で理解｜G検定対策】

まず結論

分散表現とは、単語や文書を「意味の近さが反映されたベクトル」で表現する方法である。
One-hot表現は意味を表せず、分散表現は意味を表せる。
G検定では「意味情報を持つかどうか」が最大の判断ポイント。

直感的な説明

One-hot表現

単語を「番号札」で表すイメージ
違う単語 = 完全に別物

分散表現

単語を「地図上の位置」で表すイメージ
意味が近い単語は近くに配置される

👉 意味を距離で表せるかどうかが決定的な違い。

定義・仕組み

One-hot表現

語彙数 = 次元数
該当する単語の位置だけが 1、他は 0

例（語彙が3語）：

犬 → [1, 0, 0]
猫 → [0, 1, 0]
車 → [0, 0, 1]

特徴

単語間の関係が表せない
次元が非常に大きい
「犬」と「猫」の距離 = 「犬」と「車」の距離

分散表現（Distributed Representation）

低次元の実数ベクトルで表現
値は学習によって決まる

例（イメージ）：

犬 → [0.2, 0.8, 0.1]
猫 → [0.3, 0.7, 0.1]
車 → [0.9, 0.1, 0.8]

特徴

意味的に近い単語が近くなる
次元数が小さい
類似度計算が可能

👉 Word2Vec や BERT は分散表現

いつ使う？（得意・不得意）

One-hot

得意：単純な識別
不得意：意味理解、類似度計算

分散表現

得意：意味類似、文書理解
不得意：学習コストがかかる

G検定ひっかけポイント

ここが頻出 👇

❌ One-hotは意味的な類似性を表せる

誤り
One-hotは意味を一切持たない

❌ 分散表現は単語の出現回数を表す

誤り
それは BoW / TF-IDF

⭕ 正しい判断基準

「意味的な近さ」→ 分散表現
「次元が語彙数と同じ」→ One-ho

🔗 関連記事

🏠 G検トップに戻る