ds data-processing preprocessing
まず結論
マッピング処理とは、ある値を別の値に対応づけて変換する処理です。
DS検定では、「カテゴリやコードを別の意味のある値に置き換える前処理」として理解できるかが問われます。
直感的な説明
例えば、アンケートデータに次のような値が入っていたとします。
顧客ID 性別
1 1 2 2 3 1
このままだと 「1 = 男性」「2 = 女性」なのかが分かりません。
そこで、
1 → 男性 2 → 女性
という対応ルールを作って変換します。
顧客ID 性別
1 男性 2 女性 3 男性
このように、 ある値を別の値に対応づけて置き換える操作を マッピング処理(mapping)と呼びます。
データ分析では、
コード → 意味のある値
カテゴリ → 数値
数値 → ラベル
などの変換でよく使われます。
定義・仕組み
マッピング処理とは、データの値を別の値に対応づけて変換する処理です。
多くの場合は、対応表(ルール)を使います。
例:
元の値 変換後
A 優良顧客 B 一般顧客 C 要フォロー
このルールを使って、
A → 優良顧客 B → 一般顧客 C → 要フォロー
のように変換します。
データ分析では特に次のような場面で使われます。
コード値 → 説明
カテゴリ → 数値
数値 → ラベル
Pythonのデータ分析では、
map
replace
などの処理としてよく登場します。
つまりマッピング処理は、 データの意味を整理する前処理の一つです。
どんな場面で使う?
① コードデータを意味のある値に変換
例:
商品カテゴリ
101 102 103
↓
商品カテゴリ
食品 日用品 家電
② カテゴリを数値に変換(機械学習前処理)
例:
満足度
高 中 低
↓
高 → 3 中 → 2 低 → 1
③ 数値をラベル化
例:
年齢
↓
0〜19 → 未成年 20〜64 → 現役世代 65〜 → 高齢者
このように、
分析しやすい形にデータを変換する
のがマッピング処理です。
よくある誤解・混同
① エンコード処理との混同
DS検定では次のような混同に注意が必要です。
用語 意味
マッピング 値を別の値に置き換える エンコーディング 機械学習のためにカテゴリを数値化する
つまり、
エンコードはマッピングの一種です。
② データ結合(Join)との混同
選択肢では次のような誤解が出やすいです。
❌ マッピング = テーブルを結合する処理
⭕ マッピング = 値を対応づけて変換する処理
テーブルを結合する処理は JOINです。
③ 集計処理との混同
❌ 値をまとめる処理
⭕ 値を置き換える処理
マッピングは 計算ではなく変換です。
まとめ(試験直前用)
マッピング処理 = 値を別の値に対応づけて変換する処理
コード → 意味のある値に変換するときによく使う
カテゴリ → 数値変換にも使われる
JOIN(結合)や集計処理とは別物
DS検定では、
「値を対応づけて置き換える処理」
と書かれていたら マッピング処理を思い出すと判断しやすくなります。
対応スキル項目(データサイエンス力シート)
データ理解・前処理
データ加工
★ データの前処理(欠損値処理、正規化、カテゴリ変数の処理など)を理解している
🔗 関連記事
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- バッチ処理とストリーム処理の違いとは?【DS検定リテラシー】
- データ拡張(Data Augmentation)とは?画像AIの学習データを増やす方法【DS検定】
- データ抽出と集計の違いとは?(SQL・BIで混同しやすい操作)【DS検定】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】