Skip to the content.

DS検定トップ > zスコア法とは?異常値判定の基本を整理【DS検定リテラシー】

まず結論

zスコア法とは、「平均との差がどれくらい離れているか」を基準にしてデータの異常値を判断する方法です。

DS検定では、「外れ値の判定方法はどれか?」という形で問われることが多く、
クラスタリングや分類手法と混同しないことがポイントです。

直感的な説明

たとえば、ある会社の社員の身長データがあるとします。

  • 平均:170cm
  • 多くの人は165〜175cmくらい

ここに「195cm」の人がいたらどうでしょうか?

「ちょっと離れすぎているな」と感じますよね。

zスコア法は、この
“平均からどれだけ離れているか”を、データのばらつき(標準偏差)で割って数値化する方法です。

つまり、

「平均との差を、データ全体のばらつきで割って標準化する」

という考え方です。

定義・仕組み

zスコアとは、

(データ − 平均) ÷ 標準偏差

で求められる値です。

ここで大事なのは「式」ではなく意味です。

  • 平均からどれくらい離れているか
  • それが“普通のばらつきの範囲内かどうか”

を判断するための指標です。

一般的には、

  • zスコアが ±2〜±3を超える
    → 外れ値(異常値)の可能性がある

と判断されることが多いです。

DS検定では、
「外れ値を検出する代表的な手法」として問われます。

どんな場面で使う?

✔ 使う場面

  • データクレンジングで異常値を除去したいとき
  • センサーデータの異常検知
  • 売上やアクセス数の急激な変化の検出

✔ 注意が必要な場面

  • データが極端に偏っている場合(正規分布でない)
  • 外れ値がすでに平均を大きく歪めている場合

zスコア法は
「平均と標準偏差」が意味を持つ分布であることが前提です。

よくある誤解・混同

❌ k平均法との混同

DS検定では、

  • 「異常値判定」→ zスコア法
  • 「クラスタリング」→ k平均法

を混同させてくることがあります。

k平均法はグループ分けであって、
基本目的は外れ値検出ではありません。

❌ 決定木やSVMとの混同

決定木分析やサポートベクターマシンは
分類モデルです。

選択肢では
「機械学習モデル」が並んでいたら注意。

zスコア法は
統計的な前処理手法です。

❌ 標準化(スケーリング)との混同

zスコアは「標準化」にも使われます。

しかし、

  • 標準化 → モデル学習のためのスケーリング
  • zスコア法 → 外れ値判定

と、目的が違う点に注意です。

DS検定ではここを狙われます。

まとめ(試験直前用)

  • zスコア法=平均との差を標準偏差で割った指標
  • ±2〜±3を超えると外れ値の可能性
  • 分類モデルではない(前処理)
  • DS検定では「外れ値判定」として問われやすい
  • クラスタリングや決定木と混同しない

対応スキル項目(データサイエンス力シート)

  • データ理解・前処理
  • データの前処理
  • ★ データの前処理(外れ値処理、欠損値処理など)を理解している

🔗 関連記事


🏠 DS検定トップに戻る