ds statistics
まず結論
カイ二乗分布とは、「ズレの大きさ」を評価するための分布です。
DS検定では “観測データと期待値のズレが偶然かどうかを判断できるか” を問われます。
直感的な説明
例えば、コインを100回投げたとします。
- 本来は「表50回・裏50回」くらいになるはず
- でも実際は「表70回・裏30回」だった
このズレは
「たまたま起きた誤差」なのか
「コインが偏っている」からなのか
この ズレの大きさを測るために使われるのがカイ二乗分布 です。
ポイントは
👉 「平均との差」ではなく
👉 “期待値との差の合計の大きさ”を見る
ということです。
定義・仕組み
カイ二乗分布は、
- いくつかの「ズレ(差)」を
- 二乗して
- 足し合わせた値
が従う分布です。
なぜ二乗するのか?
- プラスとマイナスを打ち消さないため
- 大きなズレをより強調するため
DS検定では数式を覚えるよりも、
「期待値との差を二乗して足したもの」
という構造を理解しておけば十分です。
そしてその値が
「偶然起きる範囲かどうか」を
確率的に判断するのがカイ二乗分布の役割です。
どんな場面で使う?
① 適合度の検定
例:
- サイコロは公平か?
- 男女比は理論値と同じか?
👉 理論値(期待値)とのズレを評価する
② 独立性の検定
例:
- 性別と商品購入は関係ある?
- 地域と満足度は関係ある?
👉 カテゴリ同士が独立かどうかを判断する
使わない場面(重要)
- 平均値の比較(→ t検定)
- 連続値の相関(→ 相関係数)
DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。
よくある誤解・混同
❌ 平均の差を見る分布
→ それは t分布です。
❌ 正規分布の仲間
→ 形は似ていません。
右に長く伸びる“非対称な分布”です。
❌ 数値が大きいほど良い
→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい
DS検定での典型的なひっかけ
- 「平均値の比較」と書いてある → カイ二乗ではない
- 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
- 「独立かどうか」と書いてある → ほぼカイ二乗
選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。
まとめ(試験直前用)
- カイ二乗分布=期待値とのズレを評価する分布
- カテゴリーデータの検定で使う
- 独立性の検定・適合度検定が代表例
- 平均の比較では使わない(t検定と混同注意)
- 値が大きい=ズレが大きい
👉 まず「データはカテゴリか?」と確認するのが判断基準
対応スキル項目(データサイエンス力シート)
- 統計解析
- 仮説検定
- ★ 仮説検定の基本的な考え方を理解している- 男女比は理論値と同じか?
👉 理論値(期待値)とのズレを評価する
② 独立性の検定
例:
- 性別と商品購入は関係ある?
- 地域と満足度は関係ある?
👉 カテゴリ同士が独立かどうかを判断する
使わない場面(重要)
- 平均値の比較(→ t検定)
- 連続値の相関(→ 相関係数)
DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。
よくある誤解・混同
❌ 平均の差を見る分布
→ それは t分布です。
❌ 正規分布の仲間
→ 形は似ていません。
右に長く伸びる“非対称な分布”です。
❌ 数値が大きいほど良い
→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい
t検定との比較(超重要)
DS検定では
カイ二乗検定とt検定を混同させる問題 がよく出ます。
まずは全体像を整理しましょう。
| 比較項目 | カイ二乗検定 | t検定 |
|---|---|---|
| データの種類 | カテゴリーデータ | 連続データ |
| 何を比べる? | 度数(人数・回数) | 平均値 |
| 主な目的 | 独立かどうか/理論値とのズレ | 2群の平均に差があるか |
| 分布 | カイ二乗分布 | t分布 |
| 例 | 性別と購入は関係ある? | 男性と女性で平均年収は違う? |
判断のコツ(試験用)
- 「平均」という言葉が出てきたら → t検定
- 「人数・割合・クロス集計表」が出てきたら → カイ二乗
- データが「数値そのもの」か「分類ラベル」かを見る
選択肢では
- 「平均値の差を検定する」→ カイ二乗ではない
- 「独立性を検定する」→ t検定ではない
と切れるようにしておきましょう。
まとめ(試験直前用)
- カイ二乗分布=期待値とのズレを評価する分布
- カテゴリーデータの検定で使う
- 独立性の検定・適合度検定が代表例
- 平均の比較では使わない(t検定と混同注意)
- 判断基準は「データはカテゴリか?平均か?」
👉 「平均ならt、分類ならカイ二乗」
これが最速の切り分け基準です。
対応スキル項目(データサイエンス力シート)
- 統計解析
- 仮説検定
- ★ 仮説検定の基本的な考え方を理解している 👉 カテゴリ同士が独立かどうかを判断する
使わない場面(重要)
- 平均値の比較(→ t検定)
- 連続値の相関(→ 相関係数)
DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。
よくある誤解・混同
❌ 平均の差を見る分布
→ それは t分布です。
❌ 正規分布の仲間
→ 形は似ていません。
右に長く伸びる“非対称な分布”です。
❌ 数値が大きいほど良い
→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい
DS検定での典型的なひっかけ
- 「平均値の比較」と書いてある → カイ二乗ではない
- 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
- 「独立かどうか」と書いてある → ほぼカイ二乗
選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。
まとめ(試験直前用)
- カイ二乗分布=期待値とのズレを評価する分布
- カテゴリーデータの検定で使う
- 独立性の検定・適合度検定が代表例
- 平均の比較では使わない(t検定と混同注意)
- 値が大きい=ズレが大きい
👉 まず「データはカテゴリか?」と確認するのが判断基準
対応スキル項目(データサイエンス力シート)
- 統計解析
- 仮説検定
- ★ 仮説検定の基本的な考え方を理解している「カテゴリーデータなのか?」
をまず確認することが大事です。
よくある誤解・混同
❌ 平均の差を見る分布
→ それは t分布です。
❌ 正規分布の仲間
→ 形は似ていません。
右に長く伸びる“非対称な分布”です。
❌ 数値が大きいほど良い
→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい
DS検定での典型的なひっかけ
- 「平均値の比較」と書いてある → カイ二乗ではない
- 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
- 「独立かどうか」と書いてある → ほぼカイ二乗
選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。
まとめ(試験直前用)
- カイ二乗分布=期待値とのズレを評価する分布
- カテゴリーデータの検定で使う
- 独立性の検定・適合度検定が代表例
- 平均の比較では使わない(t検定と混同注意)
- 値が大きい=ズレが大きい
👉 まず「データはカテゴリか?」と確認するのが判断基準
対応スキル項目(データサイエンス力シート)
- 統計解析
- 仮説検定
- ★ 仮説検定の基本的な考え方を理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- 相関と因果の違いを一発で整理【DS検定リテラシー】