ds visualization
DS検定トップ
> 外れ値を見出すための適切な可視化手法とは?【DS検定】
まず結論
- 外れ値を見つけるには「分布を把握できる可視化(ヒストグラム・箱ひげ図など)」を使うことが重要
- DS検定では「外れ値を見るのに適したグラフを選べているか」がよく問われる
直感的な説明
例えばテストの点数があったとします。
ほとんどの人が60〜80点なのに、
👉1人だけ20点だったら「明らかに違う」と気づきますよね
これが外れ値です。
ただし、表だけ見ても気づきにくいことがあります。
そこで
👉グラフにして「分布」を見る
- 山から離れている点 → 外れ値
- 箱から飛び出している点 → 外れ値
👉「普通と違う位置にあるデータ」を見つけるのがポイント
定義・仕組み
外れ値とは
👉「他のデータと比べて極端に異なる値」
これを見つける代表的な可視化手法が以下です。
ヒストグラム
- データの分布を棒で表す
- 離れた位置に単独の棒があれば外れ値の可能性
👉全体の形を見るのに強い
箱ひげ図(ボックスプロット)
- データの範囲とばらつきを表す
- 箱(中央の50%)から大きく外れた点が外れ値
👉外れ値検出に最もよく使われる
なぜこれらが重要?
外れ値は
- 入力ミス
- センサー異常
- 特別な事象
などの可能性があります。
👉分析結果を歪める原因になるため、必ずチェックが必要
どんな場面で使う?
使うべき場面
- データ前処理(クリーニング)
- 異常検知
- 分布の確認
👉「このデータ、そのまま使って大丈夫?」を確認する場面
使うと誤解しやすい場面
-
平均だけ見て判断する場合
→ 外れ値の影響を受ける -
棒グラフだけで判断する場合
→ 分布が見えない
👉外れ値は「分布」を見ないと分からない
よくある誤解・混同
❌ 「外れ値=削除すべき」
→ 間違いです
- 本当に重要な異常データの可能性もある
👉理由を確認してから判断
❌ 「どのグラフでも外れ値は分かる」
→ 間違いです
- 円グラフ・棒グラフでは分かりにくい
👉分布が見えるグラフが必要
❌ 「箱ひげ図は難しいから不要」
→ 間違いです
👉DS検定では箱ひげ図の理解は重要
DS検定のひっかけポイント
- 「外れ値検出に円グラフ」→ 誤り
- 「平均だけで外れ値判断」→ 誤り
- 「箱ひげ図で外れ値が点で表示される」→ 正しい
👉「分布が見えるか」が判断基準
まとめ(試験直前用)
- 外れ値は「他と大きく異なる値」
- 見つけるには分布を見ることが重要
- ヒストグラム・箱ひげ図が基本
- 平均だけでは判断できない
- DS検定では「適切なグラフ選択」が問われる
対応スキル項目(データサイエンス力シート)
- スキルカテゴリ:データ可視化
- サブカテゴリ:意味抽出
- ★ 外れ値を見出すための適切な表現手法を選択できる
🔗 関連記事
- BIツール操作チートシート|スライス・ダイス・ドリルダウンの違い【DS検定】
- 箱ひげ図とは?四分位数と外れ値の読み取り方【DS検定】
- グラフの種類と使い分け(可視化の基本)【DS検定】
- データキューブとは?OLAP分析の基本概念を理解する【DS検定】
- データを読む・説明する・扱うとは?データリテラシー実践ガイド【DS検定】