gk nlp machine_learning
G検定トップ
> 分散表現とは?【One-hotとの比較で理解|G検定対策】
まず結論
- 分散表現とは、単語や文書を「意味の近さが反映されたベクトル」で表現する方法である。
- One-hot表現は意味を表せず、分散表現は意味を表せる。
- G検定では「意味情報を持つかどうか」が最大の判断ポイント。
直感的な説明
One-hot表現
- 単語を「番号札」で表すイメージ
- 違う単語 = 完全に別物
分散表現
- 単語を「地図上の位置」で表すイメージ
- 意味が近い単語は近くに配置される
👉 意味を距離で表せるかどうかが決定的な違い。
定義・仕組み
One-hot表現
- 語彙数 = 次元数
- 該当する単語の位置だけが 1、他は 0
例(語彙が3語):
- 犬 → [1, 0, 0]
- 猫 → [0, 1, 0]
- 車 → [0, 0, 1]
特徴
- 単語間の関係が表せない
- 次元が非常に大きい
- 「犬」と「猫」の距離 = 「犬」と「車」の距離
分散表現(Distributed Representation)
- 低次元の実数ベクトルで表現
- 値は学習によって決まる
例(イメージ):
- 犬 → [0.2, 0.8, 0.1]
- 猫 → [0.3, 0.7, 0.1]
- 車 → [0.9, 0.1, 0.8]
特徴
- 意味的に近い単語が近くなる
- 次元数が小さい
- 類似度計算が可能
👉 Word2Vec や BERT は分散表現
いつ使う?(得意・不得意)
One-hot
- 得意:単純な識別
- 不得意:意味理解、類似度計算
分散表現
- 得意:意味類似、文書理解
- 不得意:学習コストがかかる
G検定ひっかけポイント
ここが頻出 👇
❌ One-hotは意味的な類似性を表せる
- 誤り
- One-hotは意味を一切持たない
❌ 分散表現は単語の出現回数を表す
- 誤り
- それは BoW / TF-IDF
⭕ 正しい判断基準
- 「意味的な近さ」→ 分散表現
- 「次元が語彙数と同じ」→ One-ho
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る