N-gramとは？文字・単語を分割する基本手法【NLP基礎｜G検定対策】 | AI・データサイエンス・IT学習ノート

N-gramは文字・単語を分割する基本手法を理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk nlp

G検定トップ＞ N-gramとは？文字・単語を分割する基本手法【NLP基礎｜G検定対策】

まず結論

N-gramとは、文章を連続するN個の文字または単語のまとまりに分割する手法である。
G検定では「文章を任意の文字数（長さ）で分割する」という定義が問われる。

直感的な説明

N-gramはとてもシンプルで、

文章を“n文字ずつ（またはn単語ずつ）スライドしながら切る”

方法です。

例：「AIを学ぶ」

1-gram：
→ A / I / を / 学 / ぶ
2-gram：
→ AI / Iを / を学 / 学ぶ
3-gram：
→ AIを / Iを学 / を学ぶ

👉 nを変えるだけで粒度が変わるのが特徴です。

定義・仕組み

定義

文章を 連続するN個の要素に分割する手法
要素は以下のどちらか
- 文字N-gram
- 単語N-gram

仕組みのポイント

順序を保持する
局所的な文脈を捉えられる
Nが大きいほど文脈は広がるが、次元が増える

いつ使う？（得意・不得意）

得意な場面

文書分類
言語モデルの基礎
スペル補正
日本語処理（形態素解析が不要な場合）

注意点

Nを大きくすると特徴量が爆発
長距離依存関係は扱えない
意味理解は弱い

G検定ひっかけポイント

ここは定番です。

よくある誤解

❌「単語の意味をベクトル化する手法」
❌「文書を単語の集合として扱う」
❌「ニューラルネットワークのモデル」
❌「クラスタリング結果の可視化」

正しい判断基準

任意の文字数・単語数で分割 → N-gram
順序を考慮しない → BoW
単語分散表現 → Word2Vec / CBOW
階層クラスタリング → デンドログラム

問題文に
「任意の文字数」「N個ずつ分割」
とあれば N-gram。

BoW / CBOW との違い（超重要）

N-gram：分割方法
BoW：数え方（順序なし）
CBOW：単語ベクトル学習モデル

👉 役割が全く違う。

まとめ（試験直前用）

N-gram＝N個ずつ切る
文字でも単語でもOK
順序を保つ
分割手法であってモデルではない
「任意の文字数」が決定打

🔗 関連記事

🏠 G検トップに戻る