Skip to the content.

G検定トップ > Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】

まず結論

  • Bag of Words(BoW)とは、文章を「単語の出現回数」の集合として表現する手法である。
  • G検定では「何を考慮しない手法か」を正確に理解しているかが問われる。

直感的な説明

BoWは、
文章をバラして、単語の数だけを数える方法です。

たとえば

「私はAIを学ぶ」
「AIを私は学ぶ」

この2文は、

  • 単語の順番は違う
  • でも 出てくる単語と回数は同じ

👉 BoWでは同じ文章として扱われる

定義・仕組み

  • 文書を単語の集合(Bag)として扱う
  • 各単語の 出現回数 を特徴量にする

特徴

  • 単語の順序を無視
  • 文脈・意味は考慮しない
  • 単純で計算しやすい

👉 「数えるだけ」 が本質。

いつ使う?(得意・不得意)

得意な場面

  • 文書分類
  • 単語の出現傾向を使うタスク
  • シンプルな特徴量が欲しい場合

不得意・注意点

  • 語順を考慮できない
  • 意味・文脈を理解しない
  • 次元数が大きくなりやすい

G検定ひっかけポイント

ここが頻出 👇

❌ 単語の意味を考慮する

  • 誤り
  • BoWは意味を理解しない

❌ 語順を保持する

  • 誤り
  • 単語の並びは無視される

⭕ 正しい判断基準

  • 「出現回数」→ BoW
  • 「語順を無視」→ BoW
  • 「意味を考慮しない」→ BoW

TF-IDFとの関係

  • BoW:単語を数える
  • TF-IDF:数えた結果に重みをつける

👉 TF-IDFはBoWの拡張

まとめ(試験直前用)

  • BoW=単語の出現回数ベース
  • 語順・意味は考慮しない
  • シンプルで計算しやすい
  • TF-IDFの土台となる手法
  • 「数えるだけ」→ BoW

🔗 関連記事


🏠 G検トップに戻る