Skip to the content.

DS検定トップ > 欠損値の処理方法とは?代表的な手法と使い分け【DS検定】

まず結論

  • 欠損値の処理とは、データに存在する「値が記録されていない部分」を適切な方法で扱う前処理のことです。
  • DS検定では「削除するのか」「補完するのか」「どの方法を使うのか」という状況に応じた判断が問われます。

直感的な説明

データ分析では、次のようなデータがよくあります。

顧客ID 年齢 年収
A 25 300
B 32 空欄
C 空欄 450

このような 空欄(欠損値) があると、

  • 平均が計算できない
  • 機械学習モデルが動かない

といった問題が発生します。

そこで分析では、

  • そのデータを削除する
  • 代表値で補う
  • 予測で補う

などの方法で欠損値を処理してから分析を行います。

DS検定では
「欠損値がある場合、どの処理が適切か」
という判断を問われることがあります。

定義・仕組み

欠損値(Missing Value)とは、

本来存在するはずのデータが記録されていない状態です。

例えば次のような理由で発生します。

  • アンケート未回答
  • センサーの測定失敗
  • データ入力ミス
  • システムエラー

欠損値の処理方法は大きく 3つの考え方に分かれます。

① 削除する(Deletion)

欠損を含むデータを削除します。

代表例

  • 行削除(listwise deletion)
  • 列削除

特徴

  • シンプルで分かりやすい
  • ただし データ量が減る

② 代表値で補完する(Imputation)

欠損値を 代表的な値で埋める方法です。

よく使われる代表値

方法 内容
平均値補完 平均値で埋める
中央値補完 中央値で埋める
最頻値補完 最も多い値で埋める

特徴

  • 実装が簡単
  • ただし データのばらつきが小さくなる

③ 推定して補完する

データから 欠損値を予測して埋める方法です。

代表例

  • 回帰補完
  • k近傍法(KNN補完)
  • 機械学習モデル

特徴

  • 精度は高くなる可能性
  • ただし 処理が複雑

DS検定での重要ポイント

DS検定では

  • 欠損値をそのまま分析に使うのは基本NG
  • 何らかの処理を行う必要がある

という点が重要です。

どんな場面で使う?

よくあるデータ分析

例えば

  • 顧客データ分析
  • 売上データ分析
  • アンケート分析

などでは欠損が頻繁に発生します。

年齢 年収
25 300
30 350
欠損 420

この場合

  • 年齢が重要なら 中央値補完
  • 欠損が少なければ 削除

などの判断を行います。

センサーデータ

例えば機械の故障検知では

  • センサー通信エラー
  • 一時的な測定失敗

などで欠損が発生します。

この場合

  • 前後の値で補完
  • 時系列補完

などが使われます。

DS検定では
「状況によって処理方法を選ぶ」ことが重要です。

よくある誤解・混同

誤解①

欠損値はとりあえず平均で埋めればよい

これは誤りです。

平均補完は

  • 分布を歪める
  • 分散を小さくする

可能性があります。

誤解②

欠損値は必ず削除する

これも誤りです。

削除すると

  • データ数が大きく減る
  • バイアスが生まれる

可能性があります。

DS検定の典型的なひっかけ

選択肢でよくあるパターン

❌ 欠損値は分析前に必ず削除する
⭕ 欠損の状況に応じて 削除または補完を選択する

また、

❌ 平均補完はデータ分布を維持する
⭕ 平均補完は 分散を小さくする

という問題もよく出ます。

まとめ(試験直前用)

  • 欠損値とは データが記録されていない状態
  • 主な処理方法は
    ①削除 ②代表値補完 ③推定補完
  • 平均補完は 分散を小さくする
  • DS検定では
    状況に応じた処理方法の選択が重要

対応スキル項目(データサイエンス力シート)

  • データ理解・前処理
  • データ前処理

★ データの欠損値・外れ値を適切に処理できる

🔗 関連記事


🏠 DS検定トップに戻る