ds statistics
まず結論
- 母分散は「母集団全体のばらつき」、
- 標本分散は「標本データのばらつき」、
- 不偏分散は「母分散を推定するために補正した標本分散」です。
DS検定では、
「どれが母分散の推定に使うべき値か?」を判断させる問題がよく出ます。
直感的な説明
例えば、全国のりんごの重さのばらつきを知りたいとします。
- 全国すべてを測れれば → 母分散
- 手元の100個だけ測ったら → 標本分散
- その100個の結果から全国のばらつきを推定するなら → 不偏分散
ポイントはここです。
👉 標本分散は、そのままだと少し小さめに出る傾向がある
だから、 「母分散を推定する目的なら補正が必要」になります。
DS検定では、 「標本分散をそのまま母分散の推定値として使う」と書いてあったら注意です。
定義・仕組み
① 母分散
母集団全体のデータを使って計算した分散。
本来知りたい「真のばらつき」です。
ただし、現実では母集団すべてを観測できないことがほとんどです。
② 標本分散
標本データのばらつきをそのまま計算したもの。
分母は「データ数 n」です。
しかしここに落とし穴があります。
標本では平均も標本から計算しているため、
ばらつきが少し小さく見積もられてしまいます。
③ 不偏分散
標本分散の「過小評価」を補正したもの。
分母を n − 1 にします。
なぜか?
→ 標本平均を使うことで自由度が1つ減るから。
DS検定では数式暗記は不要ですが、
「n ではなく n−1 で割るのは母分散を正しく推定するため」
という意味を理解していれば十分です。
どんな場面で使う?
✔ 母分散
- 理論上の定義
- 母集団全体がわかっている場合(ほぼない)
✔ 標本分散
- 単に「この標本のばらつき」を知りたいとき
✔ 不偏分散
- 標本から母分散を推定するとき
- 統計的推定や推測統計の文脈
DS検定では、
「母分散の推定値として最も適切なものはどれか」
と問われることが多いです。
答えは 不偏分散 です。
よくある誤解・混同
❌ 「標本分散=母分散の推定値」
→ 不正確です。
標本分散は小さめに出る傾向があります。
❌ 「n と n−1 の違いは誤差レベルで無視できる」
→ 概念理解としては重要です。
DS検定はこの違いを理解しているかを問います。
❌ 「不偏分散は常に正しい分散」
→ あくまで推定値です。
母分散そのものではありません。
試験での典型的なひっかけ
-
「標本分散は母分散の不偏推定量である」
→ ❌(不偏分散が不偏推定量) -
「分母が n の分散は母分散の推定に適している」
→ ❌ -
「分母が n−1 の分散は母分散の推定量である」
→ ✅
まとめ(試験直前用)
- 母分散:母集団全体のばらつき
- 標本分散:標本のばらつき(分母 n)
- 不偏分散:母分散を推定するための補正分散(分母 n−1)
- DS検定では「母分散の推定値はどれか?」が頻出
- 迷ったら「推定なら n−1」と判断する
対応スキル項目(データサイエンス力シート)
- スキルカテゴリ:基礎数学
- サブカテゴリ:統計数理基礎
- ★ 母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】