ds statistics
DS検定トップ
> 分散と標準偏差の違いとは?ばらつきをどう読むか【DS検定】
まず結論
分散と標準偏差はどちらも「データのばらつきの大きさ」を表す指標で、標準偏差は分散の平方根です。
DS検定では、「ばらつきの意味を理解しているか」と「単位の違いを説明できるか」が問われます。
直感的な説明
たとえば、テストの点数が次の2クラスでどう違うか考えてみます。
- Aクラス:ほとんどの人が70点前後
- Bクラス:30点の人もいれば100点の人もいる
平均点が同じでも、「散らばり方」は違います。
この「散らばり方の大きさ」を数値にしたのが
分散や標準偏差です。
ビジネスでは、
- 売上の安定度
- 製品の品質のばらつき
- 作業時間の安定性
などを見るときに使われます。
定義・仕組み
分散の考え方
分散は、
「それぞれのデータが平均からどれだけ離れているか」を
「二乗して平均したもの」
です。
代表的な式は次の通りです。
\[\mathrm{Var}(X) = \frac{1}{n} \sum (x_i - \bar{x})^2\]意味は、
- 平均からのズレを計算する
- プラス・マイナスを打ち消さないために二乗する
- 全体で平均する
という流れです。
標準偏差の考え方
標準偏差は、
\[\sigma = \sqrt{\mathrm{Var}(X)}\]つまり、
分散の平方根
です。
なぜ平方根をとるのか?
分散は「二乗」しているため、単位も二乗になります。
例:
- 点数 → 点²
- 円 → 円²
これでは直感的に理解しにくい。
そこで平方根をとることで、
元の単位に戻して解釈しやすくしたものが標準偏差です。
どんな場面で使う?
分散を使う場面
- 数学的な理論展開
- 統計モデル内部の計算
- 分散共分散行列
実務では分散単体を解釈することはあまり多くありません。
標準偏差を使う場面
- データのばらつきを説明するとき
- 安定性を評価するとき
- 異常値を判断するとき
ビジネスでは基本的に「標準偏差」を使います。
よくある誤解・混同
① 分散と標準偏差は同じ?
違います。
標準偏差は分散の平方根です。
DS検定では、
「標準偏差は分散の二乗である」
という選択肢は誤りです。
② 標準偏差は平均と同じ単位?
これは正しいです。
標準偏差は元の単位と同じです。
③ 分散が大きい=必ず異常?
必ずしもそうではありません。
もともとばらつきが大きいデータかもしれません。
文脈なしに「大きい=問題」と判断する選択肢は注意です。
④ 分散と標準偏差の符号
どちらも必ず0以上です。
マイナスになることはありません。
まとめ(試験直前用)
- 分散:平均からのズレを二乗して平均したもの
- 標準偏差:分散の平方根
- 標準偏差は元の単位で解釈できる
- どちらも0以上
- 実務で解釈するのは基本的に標準偏差
対応スキル項目(データサイエンス力シート)
- データ理解
- データのばらつき把握
- ★ 分散と標準偏差の意味を理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】