Skip to the content.

DS検定トップ > 外れ値を見出すための適切な可視化手法とは?【DS検定】

まず結論

  • 外れ値を見つけるには「分布を把握できる可視化(ヒストグラム・箱ひげ図など)」を使うことが重要
  • DS検定では「外れ値を見るのに適したグラフを選べているか」がよく問われる

直感的な説明

例えばテストの点数があったとします。

ほとんどの人が60〜80点なのに、
👉1人だけ20点だったら「明らかに違う」と気づきますよね

これが外れ値です。

ただし、表だけ見ても気づきにくいことがあります。

そこで
👉グラフにして「分布」を見る

  • 山から離れている点 → 外れ値
  • 箱から飛び出している点 → 外れ値

👉「普通と違う位置にあるデータ」を見つけるのがポイント

定義・仕組み

外れ値とは
👉「他のデータと比べて極端に異なる値」

これを見つける代表的な可視化手法が以下です。

ヒストグラム

  • データの分布を棒で表す
  • 離れた位置に単独の棒があれば外れ値の可能性

👉全体の形を見るのに強い

箱ひげ図(ボックスプロット)

  • データの範囲とばらつきを表す
  • 箱(中央の50%)から大きく外れた点が外れ値

👉外れ値検出に最もよく使われる

なぜこれらが重要?

外れ値は

  • 入力ミス
  • センサー異常
  • 特別な事象

などの可能性があります。

👉分析結果を歪める原因になるため、必ずチェックが必要

どんな場面で使う?

使うべき場面

  • データ前処理(クリーニング)
  • 異常検知
  • 分布の確認

👉「このデータ、そのまま使って大丈夫?」を確認する場面

使うと誤解しやすい場面

  • 平均だけ見て判断する場合
    → 外れ値の影響を受ける

  • 棒グラフだけで判断する場合
    → 分布が見えない

👉外れ値は「分布」を見ないと分からない

よくある誤解・混同

❌ 「外れ値=削除すべき」

→ 間違いです

  • 本当に重要な異常データの可能性もある
    👉理由を確認してから判断

❌ 「どのグラフでも外れ値は分かる」

→ 間違いです

  • 円グラフ・棒グラフでは分かりにくい

👉分布が見えるグラフが必要

❌ 「箱ひげ図は難しいから不要」

→ 間違いです

👉DS検定では箱ひげ図の理解は重要

DS検定のひっかけポイント

  • 「外れ値検出に円グラフ」→ 誤り
  • 「平均だけで外れ値判断」→ 誤り
  • 「箱ひげ図で外れ値が点で表示される」→ 正しい

👉「分布が見えるか」が判断基準

まとめ(試験直前用)

  • 外れ値は「他と大きく異なる値」
  • 見つけるには分布を見ることが重要
  • ヒストグラム・箱ひげ図が基本
  • 平均だけでは判断できない
  • DS検定では「適切なグラフ選択」が問われる

対応スキル項目(データサイエンス力シート)

  • スキルカテゴリ:データ可視化
  • サブカテゴリ:意味抽出
  • ★ 外れ値を見出すための適切な表現手法を選択できる

🔗 関連記事


🏠 DS検定トップに戻る