Skip to the content.

G検定トップ > 分散表現とは?【One-hotとの比較で理解|G検定対策】

まず結論

  • 分散表現とは、単語や文書を「意味の近さが反映されたベクトル」で表現する方法である。
  • One-hot表現は意味を表せず、分散表現は意味を表せる。
  • G検定では「意味情報を持つかどうか」が最大の判断ポイント。

直感的な説明

One-hot表現

  • 単語を「番号札」で表すイメージ
  • 違う単語 = 完全に別物

分散表現

  • 単語を「地図上の位置」で表すイメージ
  • 意味が近い単語は近くに配置される

👉 意味を距離で表せるかどうかが決定的な違い。

定義・仕組み

One-hot表現

  • 語彙数 = 次元数
  • 該当する単語の位置だけが 1、他は 0

例(語彙が3語):

  • 犬 → [1, 0, 0]
  • 猫 → [0, 1, 0]
  • 車 → [0, 0, 1]

特徴

  • 単語間の関係が表せない
  • 次元が非常に大きい
  • 「犬」と「猫」の距離 = 「犬」と「車」の距離

分散表現(Distributed Representation)

  • 低次元の実数ベクトルで表現
  • 値は学習によって決まる

例(イメージ):

  • 犬 → [0.2, 0.8, 0.1]
  • 猫 → [0.3, 0.7, 0.1]
  • 車 → [0.9, 0.1, 0.8]

特徴

  • 意味的に近い単語が近くなる
  • 次元数が小さい
  • 類似度計算が可能

👉 Word2Vec や BERT は分散表現

いつ使う?(得意・不得意)

One-hot

  • 得意:単純な識別
  • 不得意:意味理解、類似度計算

分散表現

  • 得意:意味類似、文書理解
  • 不得意:学習コストがかかる

G検定ひっかけポイント

ここが頻出 👇

❌ One-hotは意味的な類似性を表せる

  • 誤り
  • One-hotは意味を一切持たない

❌ 分散表現は単語の出現回数を表す

  • 誤り
  • それは BoW / TF-IDF

⭕ 正しい判断基準

  • 「意味的な近さ」→ 分散表現
  • 「次元が語彙数と同じ」→ One-ho

🔗 関連記事


🏠 G検トップに戻る