TF-IDFとは？【単語の重要度指標｜G検定対策】 | AI・データサイエンス・IT学習ノート

最終更新日：2026年6月28日

gk nlp machine_learning

G検定トップ＞ TF-IDFとは？【単語の重要度指標｜G検定対策】

まず結論

TF-IDFとは、文書中の単語が「その文書にとってどれだけ重要か」を数値化する手法である。
G検定では「頻度が高いだけでは重要とは限らない」という考え方を理解しているかが問われる。

直感的な説明

TF-IDFは、
「その文章ではよく出るけど、他ではあまり出ない単語ほど重要」
と考える方法です。

たとえば、

「今日」「これ」「する」
→ どの文章にも出てくる → あまり重要でない
「畳み込み」「勾配降下法」
→ 特定の文章でだけ出る → 重要

👉 珍しさ × その文章での頻度 がポイント。

定義・仕組み

TF-IDF は、次の2つを掛け合わせた値。

TF（Term Frequency）

ある文書の中で、その単語がどれくらい出現するか
文書内での頻度

👉 文書内でよく出る単語ほど大きい

IDF（Inverse Document Frequency）

その単語が どれくらい多くの文書に出てくるか の逆数
多くの文書に出る単語ほど小さくなる

👉 どこにでもある単語の重要度を下げる

TF-IDF

TF × IDF
文書に特徴的な単語ほど値が大きくなる

いつ使う？（得意・不得意）

得意な場面

文書分類
情報検索
特徴量として文章を数値化したいとき

不得意・注意点

単語の意味や文脈は理解しない
同義語・語順は考慮できない
BERTなどの分散表現とは役割が異なる

G検定ひっかけポイント

ここが頻出 👇

❌ 出現頻度が高い単語ほど重要

誤り
重要なのは「文書内では多いが、他では少ない」

❌ 単語の意味を理解している

誤り
TF-IDFは統計的手法であり、意味理解はしない

⭕ 正しい判断基準

「頻度」→ TF
「珍しさ」→ IDF
「重要度」→ TF-IDF

Word2Vecとの違い

TF-IDF：頻度ベース
Word2Vec：意味ベース

より広い比較は、TF-IDF・Word2Vec・BERTの違いで確認できます。

まとめ（試験直前用）

TF-IDF＝単語の重要度指標
TF：文書内の頻度
IDF：文書全体での珍しさ
意味理解はしない
「珍しい重要語を強調」する手法

🔗 関連記事

🏠 G検トップに戻る