gk nlp
G検定トップ
> 局所表現と分散表現の違いとは?G検定対策
まず結論
- 局所表現(Local Representation)と分散表現(Distributed Representation)は、単語などをベクトルで表す方法の違いです。
- G検定では「分散表現の説明として不適切なものはどれか」「ワンホットとの違い」が頻出です。
直感的な説明
- 局所表現は「名札方式」です。単語ごとに1つの席(次元)があり、該当する場所だけが1になります。
- 分散表現は「特徴の組み合わせ」です。1つの単語を、意味や性質を表す複数の成分の組み合わせで表現します。
- 「犬」と「猫」が少し似ている、といった関係性を表せるのが分散表現です。
定義・仕組み
-
局所表現
- 単語を one-hot ベクトルで表す
- 該当する次元が1、その他は0
- 各単語は互いに独立で、類似度は表現できない
-
分散表現
- 単語を 多次元ベクトルで表現
- 1つの単語が複数の次元(成分)に分散して表される
- ベクトル間の距離や角度で類似性を扱える
いつ使う?(得意・不得意)
局所表現
- 得意:実装が簡単、直感的
-
不得意:
- 次元数が非常に大きくなる
- 単語間の意味的な近さを表現できない
分散表現
-
得意:
- 単語の類似性・関係性を表現できる
- NLPモデル(Word2Vec, GloVe, ELMo など)で必須
-
不得意:
- 学習が必要
- 直感的に意味を解釈しにくい
G検定ひっかけポイント
-
最大のひっかけ
- 「分散表現は、1つの単語を1つの成分で表現する」→ ❌
-
正しい理解
- 1つの単語は 複数の成分に分散して表現される
-
よくある混同
- 局所表現 = one-hot
- 分散表現 = 類似度をベクトルで保持
-
選択肢で
- 「該当要素を1、他を0」→ 局所表現
- 「単語間の類似情報を保持」→ 分散表現
まとめ(試験直前用)
- 局所表現:one-hot、単語ごとに独立
- 分散表現:複数次元で意味を表す
- 分散表現は類似度を扱える
- 「1単語=1成分」は分散表現ではない
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る