gk nlp
G検定トップ
> 固定表現とは?【G検定対策】
まず結論
- 固定表現とは、自然言語処理において「意味をもつ特定の語句(熟語・慣用句など)」を指す用語である。
- G検定では「ストップワードやモデル概念との違い」を正しく区別できるかが問われる。
直感的な説明
固定表現は、
単語をバラバラにすると意味が崩れてしまう言葉のまとまりです。
たとえば、
- 「人工知能」
- 「機械学習」
- 「自然言語処理」
これらは
1語ずつ分解すると意味が弱くなりますが、
ひとまとまりで扱うことで、はっきりした意味を持ちます。
👉 こうした「意味のかたまり」が 固定表現 です。
定義・仕組み
固定表現とは、
- 複数語から構成されることが多く
- 全体として 特定の意味をもつ
- 分解せずに 1つの単位として扱う 語句
を指します。
NLPでは、
- 形態素解析
- トークン化
- 特徴抽出
の段階で、
固定表現として扱うかどうか が重要になります。
いつ使う?(得意・不得意)
使われる場面
- 文書分類
- 情報検索
- キーワード抽出
- 固有表現抽出(NER)と近い文脈で出題されることもある
注意点
- 固定表現 ≠ モデル
- 固定表現 ≠ 学習手法
- あくまで 「語の性質・扱い方」 に関する概念
G検定ひっかけポイント
ここが 今回の誤答ポイント です。
ひっかけ①
「相槌など、文意に影響を与えない単語」
❌ 不正解
→ これは ストップワード の説明
(例:「は」「の」「です」など)
ひっかけ②
「語順を考慮した言語分析モデル」
❌ 不正解
→ n-gram や RNN などの モデルの説明
ひっかけ③
「単語の出現回数によって言語分析を行うモデル」
❌ 不正解
→ これは BoW(Bag-of-Words)
正解の判断基準
選択肢に
- 「意味のある特定の語句」
- 「熟語」「慣用句」
とあれば 固定表現。
まとめ(試験直前用)
- 固定表現は 意味をもつ語句のまとまり
- ストップワードとは正反対の概念
- モデルや学習手法ではない
- 「意味のかたまりか?」で判断する
👉 意味をもつ語句=固定表現
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る