zスコアとは？標準化・偏差値・外れ値判定を整理【DS検定】

まず結論

zスコアとは、ある値が平均から標準偏差何個分離れているかを表す指標です。

zスコアは、次の3つの文脈で使われます。

文脈	zスコアの役割	判断ポイント
相対的な位置	平均からどれだけ離れているかを表す	正負で平均より上か下かが分かる
標準化	単位の異なるデータの尺度をそろえる	平均0、標準偏差1の尺度へ変換する
外れ値判定	平均から極端に離れた値を探す	±2〜3は分布を確認して使う

DS検定では、zスコアそのもの、標準化という処理、外れ値判定という用途を混同しないことが重要です。

直感的な説明

ある試験で80点を取ったとします。

同じ80点でも、試験全体の平均やばらつきによって意味が変わります。

平均75点で、点数が狭い範囲に集まっている試験
平均50点で、点数が広くばらついている試験

zスコアは、80点という点数をそのまま比べるのではなく、次のように考えます。

その点数は、平均から標準偏差何個分離れているか？

たとえば、zスコアが2なら、平均より標準偏差2個分だけ高い位置です。zスコアが-1なら、平均より標準偏差1個分だけ低い位置です。

zスコア	位置のイメージ
0	平均と同じ
1	平均より標準偏差1個分高い
-1	平均より標準偏差1個分低い
3	平均からかなり離れている

zスコアを使うと、点数、売上、温度、身長など、単位や尺度が異なる値でも「平均との差」という共通の尺度で考えられます。

定義・仕組み

zスコアの計算

zスコアは、次の式で求めます。

zスコア = （観測値 - 平均）÷ 標準偏差

式の意味を分けると、次のとおりです。

観測値から平均を引く
- 平均からどれだけ離れているかを求める
標準偏差で割る
- データのばらつきの大きさを基準に距離を表す

大事なのは式を暗記することよりも、平均との差を、そのデータの通常のばらつきで測っていると理解することです。

zスコアと標準化

標準化とは、各データをzスコアへ変換し、尺度をそろえる処理です。

標準化後のデータは、基本的に次の形になります。

平均：0
標準偏差：1

たとえば、売上金額と来店人数は単位が違うため、そのままでは数値の大きさを比較しにくいです。標準化すると、どちらも平均からの相対的な位置として扱えます。

用語	意味
zスコア	1つの値が平均から標準偏差何個分離れているかを表す値
標準化	各値をzスコアへ変換して尺度をそろえる処理

機械学習では、距離や値の大きさに影響を受ける手法で標準化が使われます。

k-means
k近傍法
SVM
主成分分析
正則化を使う回帰モデル

scikit-learnでは、標準化にStandardScalerを使えます。

zスコアと偏差値

偏差値は、zスコアを平均50、標準偏差10になるように変換した値です。

偏差値 = 50 + 10 × zスコア

zスコア	偏差値
0	50
1	60
-1	40
2	70

つまり、zスコアと偏差値は別の考え方ではなく、同じ相対的位置を異なる尺度で表したものです。

偏差値を詳しく確認したい場合は、偏差値とは？標準偏差との関係と公式をやさしく整理も参考になります。

zスコアと外れ値判定

zスコアの絶対値が大きいデータは、平均から遠く離れています。そのため、外れ値候補を探す方法として使われます。

一般的には、次のようなしきい値が使われることがあります。

|z| > 2 または |z| > 3

ただし、これは機械的な正解ではありません。±2〜3という基準は、データがおおむね正規分布に近い場合に解釈しやすい経験則です。

強く偏った分布や外れ値の多いデータでは、中央値と四分位範囲（IQR）など、外れ値の影響を受けにくい方法も検討します。

どんな場面で使う？

単位の異なる特徴量をそろえる

機械学習では、特徴量ごとの数値の大きさが大きく異なることがあります。

特徴量	値の例
年齢	20〜70
年収	3,000,000〜10,000,000
購入回数	0〜100

このまま距離を計算すると、年収のように数値が大きい特徴量の影響が強くなります。標準化によってzスコアへ変換すると、各特徴量を比較しやすくなります。

データの相対的な位置を比べる

zスコアは、尺度が異なる成績や指標を相対的に比較するときに使えます。

異なる試験の成績
店舗ごとの売上
部門ごとのKPI
センサーごとの測定値

ただし、対象となる集団や期間が違いすぎる場合は、平均や標準偏差の意味も異なるため、単純比較には注意が必要です。

外れ値候補を見つける

zスコアは、次のようなデータで異常に離れた値を探すときに使われます。

センサーデータ
売上やアクセス数
品質測定値
製造設備の温度や振動

zスコアが大きいからといって、すぐにデータを削除してはいけません。入力ミスなのか、故障の兆候なのか、重要な事象なのかを確認します。

向いていない場面

次のような場合は、zスコアによる単純な外れ値判定に注意が必要です。

分布が大きく偏っている
外れ値が平均や標準偏差を強くゆがめている
データ数が少ない
時系列で平均やばらつきが変化している
カテゴリデータを扱っている

よくある誤解・混同

誤解1：zスコアは外れ値判定だけに使う

zスコアは、外れ値判定だけの指標ではありません。

zスコアは、値の相対的位置を表し、標準化や偏差値の計算にも使われます。

誤解2：zスコアの計算には正規分布が必須

zスコア自体は、平均と標準偏差が求められれば計算できます。

ただし、±2〜3を超えたら外れ値とする判断は、正規分布に近いデータで特に解釈しやすい基準です。

誤解3：標準化とzスコアはまったく同じ意味

zスコアは変換後の値、標準化はzスコアへ変換する処理です。

zスコア：結果の値
標準化：尺度をそろえる処理

誤解4：zスコアが大きいデータは必ず削除する

zスコアが大きい値は、外れ値の候補です。必ず誤りとは限りません。

製造設備の異常や急激な需要増加など、重要な現象を表している可能性もあります。

誤解5：zスコア法は分類やクラスタリングの手法

zスコアは統計的な変換・指標です。決定木、SVM、k-meansのような学習アルゴリズムそのものではありません。

ただし、標準化したデータを、それらの機械学習手法へ入力することはあります。

選択肢の判断基準

「平均から標準偏差何個分離れているか」→ zスコア
「平均0、標準偏差1へ変換」→ 標準化
「50 + 10z」→ 偏差値
「±2〜3を超える値を確認」→ zスコアを使った外れ値判定
「中央値と四分位範囲」→ 偏りや外れ値に強い別の判断方法

確認問題（DS検定対策）

zスコアの説明として、最も適切なものはどれか。

ア. 観測値が平均から標準偏差何個分離れているかを表す。
イ. データを必ず0から1の範囲へ変換する。
ウ. zスコアが3を超えるデータは、理由を確認せず必ず削除する。
エ. zスコアを計算するには、データが完全な正規分布でなければならない。

▶ クリックして答えと解説を見る（ここを開く）

正解：ア

解説

ア：適切です。zスコアは、平均との差を標準偏差で割った相対的位置の指標です。
イ：不適切です。0から1の範囲へ変換するのは、主に最小最大正規化の説明です。
ウ：不適切です。zスコアが大きい値は外れ値候補ですが、原因や業務上の意味を確認します。
エ：不適切です。zスコア自体は正規分布でなくても計算できます。

判断ポイントは、平均からの距離を標準偏差の個数で表すことです。

まとめ（試験直前用）

zスコア＝平均から標準偏差何個分離れているかを表す値
標準化＝各値をzスコアへ変換し、尺度をそろえる処理
偏差値＝50 + 10 × zスコア
±2〜3は外れ値候補の目安だが、分布と原因を確認する
zスコアは分類・クラスタリング手法ではない

迷ったら、「平均からの距離を、標準偏差で測る話か」で判断します。

対応スキル項目（データサイエンス力シート）

データ理解・前処理
データの標準化
★ 外れ値処理や特徴量スケーリングの目的を理解している

🔗 関連記事

🏠 DS検定トップに戻る