ds unstructured-data preprocessing
DS検定トップ
> 自然言語処理におけるクリーニングとは?(前処理の基本)【DS検定】
まず結論
自然言語処理におけるクリーニングとは、テキストから不要な情報を取り除き、モデルが扱いやすい形に整える前処理のことです。
DS検定では「どの処理が前処理にあたるか」を判断させる問題として問われることが多いです。
直感的な説明
たとえば、アンケートの自由記述を分析するとします。
- 絵文字😊
- URL
- 不要な記号
- 全角・半角のゆれ
これらがそのままだと、同じ意味の言葉でも別物として扱われてしまいます。
クリーニングは、
「読む前にノイズを取り除く作業」です。
ビジネスの現場では、
顧客の声分析やSNS分析などで必ず行われる重要な工程です。
定義・仕組み
クリーニングとは、
テキストデータから分析に不要な情報を除去し、形式を整える処理
を指します。
具体例:
- 記号・HTMLタグの除去
- 大文字・小文字の統一
- 全角・半角の統一
- 不要な空白の削除
- ストップワードの除去
ポイントは、
「意味を持たないノイズを減らす」こと
です。
DS検定では、
「不要情報の除去=クリーニング」
と判断できるかが問われます。
どんな場面で使う?
使う場面
- 感情分析
- 文書分類
- トピック分析
- チャットログ分析
モデルに入力する前は、ほぼ必ず実施します。
誤解しやすい場面
- 単語に分割する処理(トークン化)
- 数値ベクトルに変換する処理(ベクトル化)
- 形態素解析
これらは「クリーニング後」に行われる工程です。
よくある誤解・混同
① トークン化との混同
選択肢では
「単語に分割する処理」と書かれていたら注意。
それはトークン化であり、
クリーニングではありません。
② ベクトル化との混同
「数値表現に変換する」と書かれていたら、
それはベクトル化です。
クリーニングはまだ数値にしません。
③ 形態素解析との混同
「品詞を付与する」と書かれていたら、
それは形態素解析です。
DS検定では
- 不要情報の除去 → クリーニング
- 単語分割 → トークン化
- 数値変換 → ベクトル化
この流れを整理できているかを問われます。
まとめ(試験直前用)
- クリーニング=不要情報の除去
- 前処理段階で行う
- 単語分割ではない
- 数値変換でもない
- 「ノイズを減らす」が判断基準
DS検定では
「これは除去か? 分割か? 数値化か?」
と自問すれば正解に近づきます。
対応スキル項目(AI利活用スキルシート)
- AIの基礎理解
- 自然言語処理の基礎
- ★ 自然言語処理の基本的な処理の流れを理解している
🔗 関連記事
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- データ拡張(Data Augmentation)とは?画像AIの学習データを増やす方法【DS検定】
- データ抽出と集計の違いとは?(SQL・BIで混同しやすい操作)【DS検定】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】
- 係り受け解析とは?形態素解析との違いを整理【DS検定】