ds data-preparation statistics
DS検定トップ
> zスコア法とは?異常値判定の基本を整理【DS検定リテラシー】
まず結論
zスコア法とは、「平均との差がどれくらい離れているか」を基準にしてデータの異常値を判断する方法です。
DS検定では、「外れ値の判定方法はどれか?」という形で問われることが多く、
クラスタリングや分類手法と混同しないことがポイントです。
直感的な説明
たとえば、ある会社の社員の身長データがあるとします。
- 平均:170cm
- 多くの人は165〜175cmくらい
ここに「195cm」の人がいたらどうでしょうか?
「ちょっと離れすぎているな」と感じますよね。
zスコア法は、この
“平均からどれだけ離れているか”を、データのばらつき(標準偏差)で割って数値化する方法です。
つまり、
「平均との差を、データ全体のばらつきで割って標準化する」
という考え方です。
定義・仕組み
zスコアとは、
(データ − 平均) ÷ 標準偏差
で求められる値です。
ここで大事なのは「式」ではなく意味です。
- 平均からどれくらい離れているか
- それが“普通のばらつきの範囲内かどうか”
を判断するための指標です。
一般的には、
- zスコアが ±2〜±3を超える
→ 外れ値(異常値)の可能性がある
と判断されることが多いです。
DS検定では、
「外れ値を検出する代表的な手法」として問われます。
どんな場面で使う?
✔ 使う場面
- データクレンジングで異常値を除去したいとき
- センサーデータの異常検知
- 売上やアクセス数の急激な変化の検出
✔ 注意が必要な場面
- データが極端に偏っている場合(正規分布でない)
- 外れ値がすでに平均を大きく歪めている場合
zスコア法は
「平均と標準偏差」が意味を持つ分布であることが前提です。
よくある誤解・混同
❌ k平均法との混同
DS検定では、
- 「異常値判定」→ zスコア法
- 「クラスタリング」→ k平均法
を混同させてくることがあります。
k平均法はグループ分けであって、
基本目的は外れ値検出ではありません。
❌ 決定木やSVMとの混同
決定木分析やサポートベクターマシンは
分類モデルです。
選択肢では
「機械学習モデル」が並んでいたら注意。
zスコア法は
統計的な前処理手法です。
❌ 標準化(スケーリング)との混同
zスコアは「標準化」にも使われます。
しかし、
- 標準化 → モデル学習のためのスケーリング
- zスコア法 → 外れ値判定
と、目的が違う点に注意です。
DS検定ではここを狙われます。
まとめ(試験直前用)
- zスコア法=平均との差を標準偏差で割った指標
- ±2〜±3を超えると外れ値の可能性
- 分類モデルではない(前処理)
- DS検定では「外れ値判定」として問われやすい
- クラスタリングや決定木と混同しない
対応スキル項目(データサイエンス力シート)
- データ理解・前処理
- データの前処理
- ★ データの前処理(外れ値処理、欠損値処理など)を理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- カテゴリ変数とは?数値データとの違いを整理【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】