ds statistics
まず結論
分散と標準偏差は、データが平均からどれくらい散らばっているか(ばらつき)を表す指標です。
DS検定では
平均だけではデータの特徴は分からない
ばらつきを表す指標として分散や標準偏差を使う
という理解ができているかが問われます。
直感的な説明
例えば、2つのクラスのテスト平均点がどちらも 70点 だったとします。
クラスA
68 70 72 69 71
クラスB
40 60 70 80 100
どちらも平均は70点ですが、データの様子はかなり違います。
クラスA
70点の近くに集まっている
クラスB
点数が大きくばらついている
このように
平均だけではデータの特徴は分かりません。
そこで使うのが
分散
標準偏差
です。
これらは
データのばらつきの大きさ
を表します。
定義・仕組み
分散と標準偏差は
平均からどれくらい離れているか
をもとに計算されます。
分散
分散は
データが平均からどれくらい離れているかを平均したもの
です。
直感的には
平均から大きく離れるデータが多い
→ 分散は大きくなる
平均の近くにデータが集まっている
→ 分散は小さくなる
という関係になります。
ただし平均との差は
プラス
マイナス
があるため、そのまま平均すると打ち消し合ってしまいます。
そこで
平均との差を二乗してから平均する
という方法を使います。
標準偏差
分散には一つ問題があります。
それは
単位が二乗になること
です。
例えば
身長(cm) → 分散(cm²)
になります。
これでは直感的に分かりにくいため
分散の平方根
を取ったものが
標準偏差です。
標準偏差は
元のデータと同じ単位でばらつきを表せる
という特徴があります。
どんな場面で使う?
分散や標準偏差は
データの特徴を理解する最初のステップ
で使われます。
例えば
売上データのばらつき
顧客年齢のばらつき
センサー値の変動
などです。
特にデータ分析では
平均
標準偏差
をセットで確認することが多くあります。
平均だけでは分からない
データの安定性やばらつき
を理解できるためです。
よくある誤解・混同
平均が同じならデータの特徴も同じ
これは誤りです。
平均が同じでも
ばらつきが小さいデータ
ばらつきが大きいデータ
は存在します。
DS検定では
平均だけではデータの特徴は判断できない
という理解が重要です。
分散と標準偏差は同じもの
この2つは似ていますが役割が違います。
分散
ばらつきの大きさを表す基本指標
標準偏差
分散を元の単位に戻したもの
実務では
標準偏差の方が直感的に理解しやすいためよく使われます。
まとめ(試験直前用)
分散と標準偏差は
データのばらつき
を表す指標です。
覚えるポイント
平均だけではデータの特徴は分からない
分散は平均からのズレの大きさ
標準偏差は分散を元の単位に戻したもの
DS検定では
平均とばらつきをセットで考える
ことが重要です。
対応スキル項目(データサイエンス力シート)
スキルカテゴリ名 データサイエンス基礎
サブカテゴリ名 統計数理基礎
★ 基本的な統計量(平均、分散、標準偏差など)を理解し、データの特徴を説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】