ds data-preparation preprocessing
DS検定トップ
> 欠損値の処理方法とは?代表的な手法と使い分け【DS検定】
まず結論
- 欠損値の処理とは、データに存在する「値が記録されていない部分」を適切な方法で扱う前処理のことです。
- DS検定では「削除するのか」「補完するのか」「どの方法を使うのか」という状況に応じた判断が問われます。
直感的な説明
データ分析では、次のようなデータがよくあります。
| 顧客ID | 年齢 | 年収 |
|---|---|---|
| A | 25 | 300 |
| B | 32 | 空欄 |
| C | 空欄 | 450 |
このような 空欄(欠損値) があると、
- 平均が計算できない
- 機械学習モデルが動かない
といった問題が発生します。
そこで分析では、
- そのデータを削除する
- 代表値で補う
- 予測で補う
などの方法で欠損値を処理してから分析を行います。
DS検定では
「欠損値がある場合、どの処理が適切か」
という判断を問われることがあります。
定義・仕組み
欠損値(Missing Value)とは、
本来存在するはずのデータが記録されていない状態です。
例えば次のような理由で発生します。
- アンケート未回答
- センサーの測定失敗
- データ入力ミス
- システムエラー
欠損値の処理方法は大きく 3つの考え方に分かれます。
① 削除する(Deletion)
欠損を含むデータを削除します。
代表例
- 行削除(listwise deletion)
- 列削除
特徴
- シンプルで分かりやすい
- ただし データ量が減る
② 代表値で補完する(Imputation)
欠損値を 代表的な値で埋める方法です。
よく使われる代表値
| 方法 | 内容 |
|---|---|
| 平均値補完 | 平均値で埋める |
| 中央値補完 | 中央値で埋める |
| 最頻値補完 | 最も多い値で埋める |
特徴
- 実装が簡単
- ただし データのばらつきが小さくなる
③ 推定して補完する
データから 欠損値を予測して埋める方法です。
代表例
- 回帰補完
- k近傍法(KNN補完)
- 機械学習モデル
特徴
- 精度は高くなる可能性
- ただし 処理が複雑
DS検定での重要ポイント
DS検定では
- 欠損値をそのまま分析に使うのは基本NG
- 何らかの処理を行う必要がある
という点が重要です。
どんな場面で使う?
よくあるデータ分析
例えば
- 顧客データ分析
- 売上データ分析
- アンケート分析
などでは欠損が頻繁に発生します。
例
| 年齢 | 年収 |
|---|---|
| 25 | 300 |
| 30 | 350 |
| 欠損 | 420 |
この場合
- 年齢が重要なら 中央値補完
- 欠損が少なければ 削除
などの判断を行います。
センサーデータ
例えば機械の故障検知では
- センサー通信エラー
- 一時的な測定失敗
などで欠損が発生します。
この場合
- 前後の値で補完
- 時系列補完
などが使われます。
DS検定では
「状況によって処理方法を選ぶ」ことが重要です。
よくある誤解・混同
誤解①
欠損値はとりあえず平均で埋めればよい
これは誤りです。
平均補完は
- 分布を歪める
- 分散を小さくする
可能性があります。
誤解②
欠損値は必ず削除する
これも誤りです。
削除すると
- データ数が大きく減る
- バイアスが生まれる
可能性があります。
DS検定の典型的なひっかけ
選択肢でよくあるパターン
❌ 欠損値は分析前に必ず削除する
⭕ 欠損の状況に応じて 削除または補完を選択する
また、
❌ 平均補完はデータ分布を維持する
⭕ 平均補完は 分散を小さくする
という問題もよく出ます。
まとめ(試験直前用)
- 欠損値とは データが記録されていない状態
- 主な処理方法は
①削除 ②代表値補完 ③推定補完 - 平均補完は 分散を小さくする
- DS検定では
状況に応じた処理方法の選択が重要
対応スキル項目(データサイエンス力シート)
- データ理解・前処理
- データ前処理
★ データの欠損値・外れ値を適切に処理できる
🔗 関連記事
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- カテゴリ変数とは?数値データとの違いを整理【DS検定】
- データ拡張(Data Augmentation)とは?画像AIの学習データを増やす方法【DS検定】
- データ抽出と集計の違いとは?(SQL・BIで混同しやすい操作)【DS検定】
- データトランスフォーメーションとは?(非構造化データの変換)【DS検定】