gk nlp machine_learning
G検定トップ
> TF-IDFとは?【単語の重要度指標|G検定対策】
まず結論
- TF-IDFとは、文書中の単語が「その文書にとってどれだけ重要か」を数値化する手法である。
- G検定では「頻度が高いだけでは重要とは限らない」という考え方を理解しているかが問われる。
直感的な説明
TF-IDFは、
「その文章ではよく出るけど、他ではあまり出ない単語ほど重要」
と考える方法です。
たとえば、
- 「今日」「これ」「する」
→ どの文章にも出てくる → あまり重要でない - 「畳み込み」「勾配降下法」
→ 特定の文章でだけ出る → 重要
👉 珍しさ × その文章での頻度 がポイント。
定義・仕組み
TF-IDF は、次の2つを掛け合わせた値。
TF(Term Frequency)
- ある文書の中で、その単語がどれくらい出現するか
- 文書内での 頻度
👉 文書内でよく出る単語ほど大きい
IDF(Inverse Document Frequency)
- その単語が どれくらい多くの文書に出てくるか の逆数
- 多くの文書に出る単語ほど小さくなる
👉 どこにでもある単語の重要度を下げる
TF-IDF
- TF × IDF
- 文書に特徴的な単語ほど値が大きくなる
いつ使う?(得意・不得意)
得意な場面
- 文書分類
- 情報検索
- 特徴量として文章を数値化したいとき
不得意・注意点
- 単語の意味や文脈は理解しない
- 同義語・語順は考慮できない
- BERTなどの分散表現とは役割が異なる
G検定ひっかけポイント
ここが頻出 👇
❌ 出現頻度が高い単語ほど重要
- 誤り
- 重要なのは「文書内では多いが、他では少ない」
❌ 単語の意味を理解している
- 誤り
- TF-IDFは統計的手法であり、意味理解はしない
⭕ 正しい判断基準
- 「頻度」→ TF
- 「珍しさ」→ IDF
- 「重要度」→ TF-IDF
Word2Vecとの違い
- TF-IDF:頻度ベース
- Word2Vec:意味ベース
まとめ(試験直前用)
- TF-IDF=単語の重要度指標
- TF:文書内の頻度
- IDF:文書全体での珍しさ
- 意味理解はしない
- 「珍しい重要語を強調」する手法
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る