Skip to the content.

DS検定トップ > カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】

まず結論

カイ二乗分布とは、「ズレの大きさ」を評価するための分布です。
DS検定では “観測データと期待値のズレが偶然かどうかを判断できるか” を問われます。

直感的な説明

例えば、コインを100回投げたとします。

  • 本来は「表50回・裏50回」くらいになるはず
  • でも実際は「表70回・裏30回」だった

このズレは
「たまたま起きた誤差」なのか
「コインが偏っている」からなのか

この ズレの大きさを測るために使われるのがカイ二乗分布 です。

ポイントは
👉 「平均との差」ではなく
👉 “期待値との差の合計の大きさ”を見る

ということです。

定義・仕組み

カイ二乗分布は、

  • いくつかの「ズレ(差)」を
  • 二乗して
  • 足し合わせた値

が従う分布です。

なぜ二乗するのか?

  • プラスとマイナスを打ち消さないため
  • 大きなズレをより強調するため

DS検定では数式を覚えるよりも、

「期待値との差を二乗して足したもの」

という構造を理解しておけば十分です。

そしてその値が
「偶然起きる範囲かどうか」を
確率的に判断するのがカイ二乗分布の役割です。

どんな場面で使う?

① 適合度の検定

例:

  • サイコロは公平か?
  • 男女比は理論値と同じか?

👉 理論値(期待値)とのズレを評価する

② 独立性の検定

例:

  • 性別と商品購入は関係ある?
  • 地域と満足度は関係ある?

👉 カテゴリ同士が独立かどうかを判断する

使わない場面(重要)

  • 平均値の比較(→ t検定)
  • 連続値の相関(→ 相関係数)

DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。

よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい

DS検定での典型的なひっかけ

  • 「平均値の比較」と書いてある → カイ二乗ではない
  • 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
  • 「独立かどうか」と書いてある → ほぼカイ二乗

選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。

まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 値が大きい=ズレが大きい

👉 まず「データはカテゴリか?」と確認するのが判断基準

対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している- 男女比は理論値と同じか?

👉 理論値(期待値)とのズレを評価する

② 独立性の検定

例:

  • 性別と商品購入は関係ある?
  • 地域と満足度は関係ある?

👉 カテゴリ同士が独立かどうかを判断する

使わない場面(重要)

  • 平均値の比較(→ t検定)
  • 連続値の相関(→ 相関係数)

DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。

よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい

t検定との比較(超重要)

DS検定では
カイ二乗検定とt検定を混同させる問題 がよく出ます。

まずは全体像を整理しましょう。

比較項目 カイ二乗検定 t検定
データの種類 カテゴリーデータ 連続データ
何を比べる? 度数(人数・回数) 平均値
主な目的 独立かどうか/理論値とのズレ 2群の平均に差があるか
分布 カイ二乗分布 t分布
性別と購入は関係ある? 男性と女性で平均年収は違う?

判断のコツ(試験用)

  1. 「平均」という言葉が出てきたら → t検定
  2. 「人数・割合・クロス集計表」が出てきたら → カイ二乗
  3. データが「数値そのもの」か「分類ラベル」かを見る

選択肢では

  • 「平均値の差を検定する」→ カイ二乗ではない
  • 「独立性を検定する」→ t検定ではない

と切れるようにしておきましょう。

まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 判断基準は「データはカテゴリか?平均か?」

👉 「平均ならt、分類ならカイ二乗」
これが最速の切り分け基準です。

対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している 👉 カテゴリ同士が独立かどうかを判断する

使わない場面(重要)

  • 平均値の比較(→ t検定)
  • 連続値の相関(→ 相関係数)

DS検定では
「カテゴリーデータなのか?」
をまず確認することが大事です。

よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい

DS検定での典型的なひっかけ

  • 「平均値の比較」と書いてある → カイ二乗ではない
  • 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
  • 「独立かどうか」と書いてある → ほぼカイ二乗

選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。

まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 値が大きい=ズレが大きい

👉 まず「データはカテゴリか?」と確認するのが判断基準

対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している「カテゴリーデータなのか?」
    をまず確認することが大事です。

よくある誤解・混同

❌ 平均の差を見る分布

→ それは t分布です。

❌ 正規分布の仲間

→ 形は似ていません。
右に長く伸びる“非対称な分布”です。

❌ 数値が大きいほど良い

→ 違います。
値が大きいほど“ズレが大きい”=帰無仮説が怪しい

DS検定での典型的なひっかけ

  • 「平均値の比較」と書いてある → カイ二乗ではない
  • 「カテゴリーデータ」と書いてある → カイ二乗の可能性が高い
  • 「独立かどうか」と書いてある → ほぼカイ二乗

選択肢では
「連続値」「平均」「回帰」などの言葉があれば注意です。

まとめ(試験直前用)

  • カイ二乗分布=期待値とのズレを評価する分布
  • カテゴリーデータの検定で使う
  • 独立性の検定・適合度検定が代表例
  • 平均の比較では使わない(t検定と混同注意)
  • 値が大きい=ズレが大きい

👉 まず「データはカテゴリか?」と確認するのが判断基準

対応スキル項目(データサイエンス力シート)

  • 統計解析
  • 仮説検定
  • ★ 仮説検定の基本的な考え方を理解している

🔗 関連記事


🏠 DS検定トップに戻る