gk nlp
G検定トップ
> N-gramとは?文字・単語を分割する基本手法【NLP基礎|G検定対策】
まず結論
- N-gramとは、文章を連続するN個の文字または単語のまとまりに分割する手法である。
- G検定では「文章を任意の文字数(長さ)で分割する」という定義が問われる。
直感的な説明
N-gramはとてもシンプルで、
文章を“n文字ずつ(またはn単語ずつ)スライドしながら切る”
方法です。
例:「AIを学ぶ」
- 1-gram:
→ A / I / を / 学 / ぶ - 2-gram:
→ AI / Iを / を学 / 学ぶ - 3-gram:
→ AIを / Iを学 / を学ぶ
👉 nを変えるだけで粒度が変わるのが特徴です。
定義・仕組み
定義
- 文章を 連続するN個の要素に分割する手法
- 要素は以下のどちらか
- 文字N-gram
- 単語N-gram
仕組みのポイント
- 順序を保持する
- 局所的な文脈を捉えられる
- Nが大きいほど文脈は広がるが、次元が増える
いつ使う?(得意・不得意)
得意な場面
- 文書分類
- 言語モデルの基礎
- スペル補正
- 日本語処理(形態素解析が不要な場合)
注意点
- Nを大きくすると特徴量が爆発
- 長距離依存関係は扱えない
- 意味理解は弱い
G検定ひっかけポイント
ここは定番です。
よくある誤解
- ❌「単語の意味をベクトル化する手法」
- ❌「文書を単語の集合として扱う」
- ❌「ニューラルネットワークのモデル」
- ❌「クラスタリング結果の可視化」
正しい判断基準
- 任意の文字数・単語数で分割 → N-gram
- 順序を考慮しない → BoW
- 単語分散表現 → Word2Vec / CBOW
- 階層クラスタリング → デンドログラム
問題文に
「任意の文字数」「N個ずつ分割」
とあれば N-gram。
BoW / CBOW との違い(超重要)
- N-gram:分割方法
- BoW:数え方(順序なし)
- CBOW:単語ベクトル学習モデル
👉 役割が全く違う。
まとめ(試験直前用)
- N-gram=N個ずつ切る
- 文字でも単語でもOK
- 順序を保つ
- 分割手法であってモデルではない
- 「任意の文字数」が決定打
🔗 関連記事
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- BERTとGPTの違い【比較チートシート|G検定対策】
- BERT(双方向Transformer)とは?G検定対策
🏠 G検トップに戻る