ds data-preparation preprocessing
まず結論
インプテーションとは、欠損しているデータを平均値・中央値・最頻値などで補う手法です。
DS検定では「欠損値をどう扱うか」を判断できるかが問われます。
直感的な説明
アンケートで「年齢」が未回答の人がいたとします。
そのままでは平均年齢が計算できません。
そこで「この列の平均値で埋めよう」と考えるのがインプテーションです。
業務でもよくあります。
センサー値が一部欠けている、売上データが一部抜けているなど、
「欠けているけど分析は続けたい」という場面で使われます。
重要なのは、
欠損をそのままにすると分析ができないことがある
という点です。
定義・仕組み
インプテーション(Imputation)とは、
欠損値(missing value)を何らかの値で補完する処理です。
代表的な方法は以下です。
- 平均値で埋める
- 中央値で埋める
- 最頻値で埋める
- 近いデータを使って推定する
DS検定リテラシーでは、
高度な数式よりも「欠損を削除するか、補完するかの判断」が重要です。
ポイントは、
- 欠損を削除するとデータが減る
- 補完すると値に人工的な情報が入る
というトレードオフがあることです。
どんな場面で使う?
使う場面
- データ数が少なく、削除すると困る場合
- 機械学習モデルに欠損が入力できない場合
- ビジネス上、平均的な値で扱っても問題ない場合
注意が必要な場面
- 欠損に意味がある場合(例:未回答=拒否)
- 欠損が特定の層に偏っている場合
- 精度を重視する分析の場合
DS検定では、
「とりあえず平均で埋めればよい」と書かれていたら要注意です。
よくある誤解・混同
① ノーマライゼーションとの混同
ノーマライゼーションは「値のスケールをそろえる」処理です。
欠損を埋める処理ではありません。
② エンコーディングとの混同
エンコーディングは「カテゴリ変数を数値化する」処理です。
欠損とは関係ありません。
③ オーバーサンプリングとの混同
オーバーサンプリングは「不均衡データで少数クラスを増やす」方法です。
欠損処理とは目的がまったく違います。
DS検定では、
「平均で置き換える」と書いてあればインプテーション、
「0〜1にそろえる」とあればノーマライゼーション、
と切り分けられるかがポイントです。
まとめ(試験直前用)
- インプテーション=欠損値を補う手法
- 代表例は平均・中央値・最頻値での補完
- 削除とのトレードオフを意識する
- 「スケール調整」や「カテゴリ変換」と混同しない
DS検定では
「欠損をどう扱うか」という判断問題として出題されることが多いです。
対応スキル項目(データサイエンス力シート)
- データ前処理
- データの品質管理
- ★ 欠損値や外れ値を適切に扱うことができる
🔗 関連記事
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- カテゴリ変数とは?数値データとの違いを整理【DS検定】
- データ拡張(Data Augmentation)とは?画像AIの学習データを増やす方法【DS検定】
- データ抽出と集計の違いとは?(SQL・BIで混同しやすい操作)【DS検定】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】