gk nlp machine_learning
G検定トップ
> Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
まず結論
- Bag of Words(BoW)とは、文章を「単語の出現回数」の集合として表現する手法である。
- G検定では「何を考慮しない手法か」を正確に理解しているかが問われる。
直感的な説明
BoWは、
文章をバラして、単語の数だけを数える方法です。
たとえば
「私はAIを学ぶ」
「AIを私は学ぶ」
この2文は、
- 単語の順番は違う
- でも 出てくる単語と回数は同じ
👉 BoWでは同じ文章として扱われる
定義・仕組み
- 文書を単語の集合(Bag)として扱う
- 各単語の 出現回数 を特徴量にする
特徴
- 単語の順序を無視
- 文脈・意味は考慮しない
- 単純で計算しやすい
👉 「数えるだけ」 が本質。
いつ使う?(得意・不得意)
得意な場面
- 文書分類
- 単語の出現傾向を使うタスク
- シンプルな特徴量が欲しい場合
不得意・注意点
- 語順を考慮できない
- 意味・文脈を理解しない
- 次元数が大きくなりやすい
G検定ひっかけポイント
ここが頻出 👇
❌ 単語の意味を考慮する
- 誤り
- BoWは意味を理解しない
❌ 語順を保持する
- 誤り
- 単語の並びは無視される
⭕ 正しい判断基準
- 「出現回数」→ BoW
- 「語順を無視」→ BoW
- 「意味を考慮しない」→ BoW
TF-IDFとの関係
- BoW:単語を数える
- TF-IDF:数えた結果に重みをつける
👉 TF-IDFはBoWの拡張
まとめ(試験直前用)
- BoW=単語の出現回数ベース
- 語順・意味は考慮しない
- シンプルで計算しやすい
- TF-IDFの土台となる手法
- 「数えるだけ」→ BoW
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
- バイアス・バリアンス トレードオフ
🏠 G検トップに戻る