Skip to the content.

G検定トップ > TF-IDFとは?【単語の重要度指標|G検定対策】

まず結論

  • TF-IDFとは、文書中の単語が「その文書にとってどれだけ重要か」を数値化する手法である。
  • G検定では「頻度が高いだけでは重要とは限らない」という考え方を理解しているかが問われる。

直感的な説明

TF-IDFは、
「その文章ではよく出るけど、他ではあまり出ない単語ほど重要」
と考える方法です。

たとえば、

  • 「今日」「これ」「する」
    → どの文章にも出てくる → あまり重要でない
  • 「畳み込み」「勾配降下法」
    → 特定の文章でだけ出る → 重要

👉 珍しさ × その文章での頻度 がポイント。

定義・仕組み

TF-IDF は、次の2つを掛け合わせた値。

TF(Term Frequency)

  • ある文書の中で、その単語がどれくらい出現するか
  • 文書内での 頻度

👉 文書内でよく出る単語ほど大きい


IDF(Inverse Document Frequency)

  • その単語が どれくらい多くの文書に出てくるか の逆数
  • 多くの文書に出る単語ほど小さくなる

👉 どこにでもある単語の重要度を下げる


TF-IDF

  • TF × IDF
  • 文書に特徴的な単語ほど値が大きくなる

いつ使う?(得意・不得意)

得意な場面

  • 文書分類
  • 情報検索
  • 特徴量として文章を数値化したいとき

不得意・注意点

  • 単語の意味や文脈は理解しない
  • 同義語・語順は考慮できない
  • BERTなどの分散表現とは役割が異なる

G検定ひっかけポイント

ここが頻出 👇

❌ 出現頻度が高い単語ほど重要

  • 誤り
  • 重要なのは「文書内では多いが、他では少ない」

❌ 単語の意味を理解している

  • 誤り
  • TF-IDFは統計的手法であり、意味理解はしない

⭕ 正しい判断基準

  • 「頻度」→ TF
  • 「珍しさ」→ IDF
  • 「重要度」→ TF-IDF

Word2Vecとの違い

  • TF-IDF:頻度ベース
  • Word2Vec:意味ベース

まとめ(試験直前用)

  • TF-IDF=単語の重要度指標
  • TF:文書内の頻度
  • IDF:文書全体での珍しさ
  • 意味理解はしない
  • 「珍しい重要語を強調」する手法

🔗 関連記事


🏠 G検トップに戻る