カイ二乗分布とは？（χ²分布の使いどころを整理）【DS検定】

まず結論

カイ二乗分布（χ²分布）とは、標準正規分布に従う複数の変数を二乗して足し合わせた値が従う、0以上の値だけを取る確率分布です。

DS検定では、次の切り分けが重要です。

度数やカテゴリのズレを見る → カイ二乗検定
平均の差を見る → t検定
分散の比を見る → F検定

直感的な説明

公平なサイコロなら、各目はほぼ同じ回数だけ出るはずです。

しかし実際の観測結果が、期待される回数から大きくずれていたら、

このズレは偶然の範囲か、それとも本当に偏りがあるのか

を判断したくなります。

カイ二乗統計量は、観測度数と期待度数のズレを、期待度数との比を考慮して足し合わせたものです。

ズレが大きいほど、カイ二乗統計量も大きくなります。

定義・仕組み

カイ二乗分布の基本

標準正規分布に従う独立な変数を二乗して足し合わせると、カイ二乗分布になります。

そのため、カイ二乗分布には次の特徴があります。

値は0以上
左右対称ではなく、右に裾が長い
自由度が小さいほど右に大きくゆがむ
自由度が大きくなると正規分布に近づく

自由度

自由度は、自由に決められる値の数です。

たとえば4カテゴリの合計度数が決まっている場合、3カテゴリの度数が決まれば、残り1カテゴリは自動的に決まります。このとき自由度は3です。

自由度が変わると、カイ二乗分布の形と棄却点も変わります。

カイ二乗統計量

イメージは次のとおりです。

観測度数と期待度数の差を二乗し、期待度数で割って合計する

差を二乗する理由は、正負のズレを打ち消さず、大きなズレを強く反映するためです。

どんな場面で使う？

適合度の検定

1つのカテゴリ変数について、観測された割合が理論上の割合と一致するかを調べます。

例：

サイコロは公平か
血液型の比率は想定と一致するか

独立性の検定

2つのカテゴリ変数に関連があるかを調べます。

例：

性別と購入有無は関係するか
地域と満足度は独立か

母分散の検定

正規母集団の分散について、ある値と等しいかを調べるときにもカイ二乗分布を使います。

ここは「カイ二乗分布はカテゴリデータ専用」と覚えないための注意点です。

注意点

期待度数が小さすぎると、カイ二乗近似が不安定になります。

試験では細かな基準値よりも、各セルの期待度数が極端に小さい場合は注意が必要と理解しておけば十分です。

よくある誤解・混同

カイ二乗分布は平均の差を見る

誤りです。平均の差は主にt検定で扱います。

観点	カイ二乗検定	t検定	F検定
主な対象	度数・カテゴリ、分散	平均	分散比
代表的な分布	カイ二乗分布	t分布	F分布
例	独立性、適合度	2群の平均差	2群の分散比

カイ二乗値が大きいほど良い

誤りです。値が大きいほど、観測値と期待値のズレが大きいことを示します。

カイ二乗分布は正規分布と同じ形

誤りです。カイ二乗分布は0以上で、通常は右に裾が長い非対称な分布です。

カイ二乗検定とカイ二乗分布は同じもの

異なります。

カイ二乗分布：確率分布
カイ二乗検定：カイ二乗分布を使う仮説検定

適合度検定と独立性検定は同じ

どちらもカイ二乗分布を使いますが、目的が違います。

適合度検定：1つのカテゴリ変数が理論比率に合うか
独立性の検定：2つのカテゴリ変数が関連するか

まとめ（試験直前用）

カイ二乗分布は0以上で右に裾が長い
標準正規変数の二乗和から生まれる
自由度で分布の形が変わる
適合度検定と独立性の検定で使う
正規母集団の分散の検定でも使う
平均の差ならt検定
分散比ならF検定
カイ二乗値が大きいほど、期待値とのズレが大きい

対応スキル項目（データサイエンス力シート）

統計解析
仮説検定
★ 仮説検定の基本的な考え方を理解している

🔗 関連記事

🏠 DS検定トップに戻る