欠損値の処理方法とは？代表的な手法と使い分け【DS検定】

DS検定トップ＞欠損値の処理方法とは？代表的な手法と使い分け【DS検定】

まず結論

欠損値の処理とは、データに存在する「値が記録されていない部分」を適切な方法で扱う前処理のことです。
DS検定では「削除するのか」「補完するのか」「どの方法を使うのか」という状況に応じた判断が問われます。

直感的な説明

データ分析では、次のようなデータがよくあります。

顧客ID	年齢	年収
A	25	300
B	32	空欄
C	空欄	450

このような 空欄（欠損値） があると、

平均が計算できない
機械学習モデルが動かない

といった問題が発生します。

そこで分析では、

そのデータを削除する
代表値で補う
予測で補う

などの方法で欠損値を処理してから分析を行います。

DS検定では
「欠損値がある場合、どの処理が適切か」
という判断を問われることがあります。

定義・仕組み

欠損値（Missing Value）とは、

本来存在するはずのデータが記録されていない状態です。

例えば次のような理由で発生します。

アンケート未回答
センサーの測定失敗
データ入力ミス
システムエラー

欠損値の処理方法は大きく 3つの考え方に分かれます。

① 削除する（Deletion）

欠損を含むデータを削除します。

代表例

行削除（listwise deletion）
列削除

特徴

シンプルで分かりやすい
ただし データ量が減る

② 代表値で補完する（Imputation）

欠損値を 代表的な値で埋める方法です。

よく使われる代表値

方法	内容
平均値補完	平均値で埋める
中央値補完	中央値で埋める
最頻値補完	最も多い値で埋める

特徴

実装が簡単
ただし データのばらつきが小さくなる

③ 推定して補完する

データから 欠損値を予測して埋める方法です。

代表例

回帰補完
k近傍法（KNN補完）
機械学習モデル

特徴

精度は高くなる可能性
ただし 処理が複雑

DS検定での重要ポイント

DS検定では

欠損値をそのまま分析に使うのは基本NG
何らかの処理を行う必要がある

という点が重要です。

どんな場面で使う？

よくあるデータ分析

例えば

顧客データ分析
売上データ分析
アンケート分析

などでは欠損が頻繁に発生します。

例

年齢	年収
25	300
30	350
欠損	420

この場合

年齢が重要なら 中央値補完
欠損が少なければ削除

などの判断を行います。

センサーデータ

例えば機械の故障検知では

センサー通信エラー
一時的な測定失敗

などで欠損が発生します。

この場合

前後の値で補完
時系列補完

などが使われます。

DS検定では
「状況によって処理方法を選ぶ」ことが重要です。

よくある誤解・混同

誤解①

欠損値はとりあえず平均で埋めればよい

これは誤りです。

平均補完は

分布を歪める
分散を小さくする

可能性があります。

誤解②

欠損値は必ず削除する

これも誤りです。

削除すると

データ数が大きく減る
バイアスが生まれる

可能性があります。

DS検定の典型的なひっかけ

選択肢でよくあるパターン

❌ 欠損値は分析前に必ず削除する
⭕ 欠損の状況に応じて 削除または補完を選択する

また、

❌ 平均補完はデータ分布を維持する
⭕ 平均補完は 分散を小さくする

という問題もよく出ます。

まとめ（試験直前用）

欠損値とは データが記録されていない状態
主な処理方法は
①削除 ②代表値補完 ③推定補完
平均補完は 分散を小さくする
DS検定では
状況に応じた処理方法の選択が重要

対応スキル項目（データサイエンス力シート）

データ理解・前処理
データ前処理

★ データの欠損値・外れ値を適切に処理できる

🔗 関連記事

🏠 DS検定トップに戻る