ステミングとレンマ化の違いとは？（テキスト前処理の基本）【DS検定】

DS検定トップ＞ステミングとレンマ化の違いとは？（テキスト前処理の基本）【DS検定】

まず結論

ステミングとレンマ化は、単語を「基本形にそろえる」前処理だが、精度と方法が異なる。

DS検定では「どちらがより正確か」「意味を考慮するのはどちらか」といった判断を問われることが多いです。

直感的な説明

文章データを扱うとき、
「run」「running」「ran」が全部バラバラに扱われたら困ります。

検索や分析では、
「同じ意味の単語は同じ形にそろえたい」
という場面がよくあります。

そこで使われるのが、

ステミング → とりあえず語尾を機械的に削る
レンマ化 → 辞書を使って正しい基本形に直す

という方法です。

ざっくり言えば、

速いけど荒いのがステミング
遅いけど正確なのがレンマ化

というイメージです。

定義・仕組み

ステミング（Stemming）

単語の語尾などを機械的に削って「語幹」にする方法です。

例：

running → runn
studies → studi

特徴：

文法や意味を考えない
ルールベースで単純
処理が速い

つまり、「意味が正しいか」よりも「形が似ていればOK」という発想です。

レンマ化（Lemmatization）

辞書や品詞情報を使って、正しい原形（lemma）に変換する方法です。

例：

running → run
better → good

特徴：

品詞を考慮する
意味を保つ
精度が高い

つまり、「言語として正しい形」に戻すのがレンマ化です。

どんな場面で使う？

ステミングを使う場面

大量テキストを高速処理したい
おおまかな検索
意味の厳密性が不要な分析

レンマ化を使う場面

感情分析
文書分類
意味を正確に扱う必要があるAIモデル

DS検定では
「意味の保存が重要な場合はどちらか？」
と問われることがあります。

答えはレンマ化です。

よくある誤解・混同

① 同じものだと思ってしまう

両方とも「単語をそろえる処理」ですが、

ステミング → 機械的
レンマ化 → 意味を考慮

という違いがあります。

② レンマ化の方が常に良いと思ってしまう

精度は高いですが、

処理が重い
言語リソースが必要

というデメリットもあります。

用途によって使い分けることが重要です。

③ DS検定のひっかけポイント

選択肢で

「辞書を用いる」
「品詞を考慮する」
「文法的に正しい原形に戻す」

と書いてあればレンマ化です。

一方で、

「語尾を削除する」
「単純なルール処理」
「高速だが粗い」

と書いてあればステミングです。

まとめ（試験直前用）

両者はテキストの前処理
ステミングは機械的に語尾を削る
レンマ化は辞書・品詞を考慮する
意味を保ちたいならレンマ化
高速処理重視ならステミング

「意味を考慮するかどうか」が判断基準。

対応スキル項目（AI利活用スキルシート）

AI活用基礎
自然言語処理の基礎理解
★ テキストデータの前処理手法（形態素解析・ステミングなど）を理解している

🔗 関連記事

🏠 DS検定トップに戻る