Skip to the content.

DS検定トップ > インプテーションとは?(欠損値補完の基本)【DS検定】

まず結論

インプテーションとは、欠損しているデータを平均値・中央値・最頻値などで補う手法です。
DS検定では「欠損値をどう扱うか」を判断できるかが問われます。

直感的な説明

アンケートで「年齢」が未回答の人がいたとします。
そのままでは平均年齢が計算できません。

そこで「この列の平均値で埋めよう」と考えるのがインプテーションです。

業務でもよくあります。
センサー値が一部欠けている、売上データが一部抜けているなど、
「欠けているけど分析は続けたい」という場面で使われます。

重要なのは、
欠損をそのままにすると分析ができないことがある
という点です。

定義・仕組み

インプテーション(Imputation)とは、
欠損値(missing value)を何らかの値で補完する処理です。

代表的な方法は以下です。

  • 平均値で埋める
  • 中央値で埋める
  • 最頻値で埋める
  • 近いデータを使って推定する

DS検定リテラシーでは、
高度な数式よりも「欠損を削除するか、補完するかの判断」が重要です。

ポイントは、

  • 欠損を削除するとデータが減る
  • 補完すると値に人工的な情報が入る

というトレードオフがあることです。

どんな場面で使う?

使う場面

  • データ数が少なく、削除すると困る場合
  • 機械学習モデルに欠損が入力できない場合
  • ビジネス上、平均的な値で扱っても問題ない場合

注意が必要な場面

  • 欠損に意味がある場合(例:未回答=拒否)
  • 欠損が特定の層に偏っている場合
  • 精度を重視する分析の場合

DS検定では、
「とりあえず平均で埋めればよい」と書かれていたら要注意です。

よくある誤解・混同

① ノーマライゼーションとの混同

ノーマライゼーションは「値のスケールをそろえる」処理です。
欠損を埋める処理ではありません。

② エンコーディングとの混同

エンコーディングは「カテゴリ変数を数値化する」処理です。
欠損とは関係ありません。

③ オーバーサンプリングとの混同

オーバーサンプリングは「不均衡データで少数クラスを増やす」方法です。
欠損処理とは目的がまったく違います。

DS検定では、
「平均で置き換える」と書いてあればインプテーション、
「0〜1にそろえる」とあればノーマライゼーション、
と切り分けられるかがポイントです。

まとめ(試験直前用)

  • インプテーション=欠損値を補う手法
  • 代表例は平均・中央値・最頻値での補完
  • 削除とのトレードオフを意識する
  • 「スケール調整」や「カテゴリ変換」と混同しない

DS検定では
「欠損をどう扱うか」という判断問題として出題されることが多いです。

対応スキル項目(データサイエンス力シート)

  • データ前処理
  • データの品質管理
  • ★ 欠損値や外れ値を適切に扱うことができる

🔗 関連記事


🏠 DS検定トップに戻る