Skip to the content.

DS検定トップ > 分散と標準偏差とは?ばらつきを理解する基本統計【DS検定】

まず結論

分散と標準偏差は、データが平均からどれくらい散らばっているか(ばらつき)を表す指標です。

DS検定では

平均だけではデータの特徴は分からない

ばらつきを表す指標として分散や標準偏差を使う

という理解ができているかが問われます。

直感的な説明

例えば、2つのクラスのテスト平均点がどちらも 70点 だったとします。

クラスA

68 70 72 69 71

クラスB

40 60 70 80 100

どちらも平均は70点ですが、データの様子はかなり違います。

クラスA

70点の近くに集まっている

クラスB

点数が大きくばらついている

このように

平均だけではデータの特徴は分かりません。

そこで使うのが

分散

標準偏差

です。

これらは

データのばらつきの大きさ

を表します。

定義・仕組み

分散と標準偏差は

平均からどれくらい離れているか

をもとに計算されます。

分散

分散は

データが平均からどれくらい離れているかを平均したもの

です。

直感的には

平均から大きく離れるデータが多い

→ 分散は大きくなる

平均の近くにデータが集まっている

→ 分散は小さくなる

という関係になります。

ただし平均との差は

プラス

マイナス

があるため、そのまま平均すると打ち消し合ってしまいます。

そこで

平均との差を二乗してから平均する

という方法を使います。

標準偏差

分散には一つ問題があります。

それは

単位が二乗になること

です。

例えば

身長(cm) → 分散(cm²)

になります。

これでは直感的に分かりにくいため

分散の平方根

を取ったものが

標準偏差です。

標準偏差は

元のデータと同じ単位でばらつきを表せる

という特徴があります。

どんな場面で使う?

分散や標準偏差は

データの特徴を理解する最初のステップ

で使われます。

例えば

売上データのばらつき

顧客年齢のばらつき

センサー値の変動

などです。

特にデータ分析では

平均

標準偏差

をセットで確認することが多くあります。

平均だけでは分からない

データの安定性やばらつき

を理解できるためです。

よくある誤解・混同

平均が同じならデータの特徴も同じ

これは誤りです。

平均が同じでも

ばらつきが小さいデータ

ばらつきが大きいデータ

は存在します。

DS検定では

平均だけではデータの特徴は判断できない

という理解が重要です。

分散と標準偏差は同じもの

この2つは似ていますが役割が違います。

分散

ばらつきの大きさを表す基本指標

標準偏差

分散を元の単位に戻したもの

実務では

標準偏差の方が直感的に理解しやすいためよく使われます。

まとめ(試験直前用)

分散と標準偏差は

データのばらつき

を表す指標です。

覚えるポイント

平均だけではデータの特徴は分からない

分散は平均からのズレの大きさ

標準偏差は分散を元の単位に戻したもの

DS検定では

平均とばらつきをセットで考える

ことが重要です。

対応スキル項目(データサイエンス力シート)

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 基本的な統計量(平均、分散、標準偏差など)を理解し、データの特徴を説明できる

🔗 関連記事


🏠 DS検定トップに戻る