自然言語処理におけるクリーニングとは？（前処理の基本）【DS検定】

DS検定トップ＞自然言語処理におけるクリーニングとは？（前処理の基本）【DS検定】

まず結論

自然言語処理におけるクリーニングとは、テキストから不要な情報を取り除き、モデルが扱いやすい形に整える前処理のことです。
DS検定では「どの処理が前処理にあたるか」を判断させる問題として問われることが多いです。

たとえば、アンケートの自由記述を分析するとします。

これらがそのままだと、同じ意味の言葉でも別物として扱われてしまいます。

クリーニングは、
「読む前にノイズを取り除く作業」です。

ビジネスの現場では、
顧客の声分析やSNS分析などで必ず行われる重要な工程です。

クリーニングとは、

テキストデータから分析に不要な情報を除去し、形式を整える処理

を指します。

具体例：

ポイントは、

「意味を持たないノイズを減らす」こと

です。

DS検定では、
「不要情報の除去＝クリーニング」
と判断できるかが問われます。

モデルに入力する前は、ほぼ必ず実施します。

これらは「クリーニング後」に行われる工程です。

選択肢では
「単語に分割する処理」と書かれていたら注意。

それはトークン化であり、
クリーニングではありません。

「数値表現に変換する」と書かれていたら、
それはベクトル化です。

クリーニングはまだ数値にしません。

「品詞を付与する」と書かれていたら、
それは形態素解析です。

DS検定では

この流れを整理できているかを問われます。

DS検定では
「これは除去か？分割か？数値化か？」
と自問すれば正解に近づきます。