ds design
DS検定トップ
> 対応があるデータと対応がないデータの違いとは?【DS検定】
まず結論
対応があるデータとは「同じ対象を2回測ったデータ」、対応がないデータとは「別々の対象同士を比べるデータ」です。
DS検定では、「どの検定を選ぶべきか」を判断させる問題としてよく問われます。
ここを間違えると、t検定の種類をすべて誤って選ぶことになります。
直感的な説明
✅ 対応があるデータ(ペアデータ)
例:
- ダイエット前とダイエット後の体重
- 研修前と研修後のテスト点数
- 同じ機械の改良前と改良後の性能
→ 同じ人・同じ対象を2回測っているので、1対1のペアになっています。
つまり、「変化」を見たいときのデータです。
✅ 対応がないデータ(独立データ)
例:
- A社の売上とB社の売上
- 男性グループと女性グループの平均身長
- A工場とB工場の不良率
→ 別々の集団同士を比べるので、1対1のペア関係はありません。
こちらは「グループ間の差」を見たいときです。
定義・仕組み
■ 対応があるデータ
- 同一対象を2条件で測定したデータ
- 個々の差(前後の差)に意味がある
- 分析では「差の平均」を検定する
使う検定:
- 対応のあるt検定
ポイント: 「1標本の検定」と似た考え方になります(差が0かどうかを見るため)
■ 対応がないデータ
- 異なる集団同士の比較
- 各グループの平均を直接比較する
使う検定の流れ:
- 分散が等しいか確認(F検定)
- 分散が等しい → スチューデントのt検定
- 分散が異なる → ウェルチのt検定
DS検定では
「分散が等しいと仮定しているか?」が重要な判断ポイントになります。
どんな場面で使う?
✔ 対応があるデータを使う場面
- 改善効果の検証
- 施策前後の比較
- 同一人物の変化分析
👉 ビジネスでは「施策の効果検証」で非常によく使います。
✔ 対応がないデータを使う場面
- A/Bテスト
- 異なる店舗比較
- 異なる顧客層比較
👉 マーケティング分析ではこちらが頻出です。
よくある誤解・混同
❌ 「前後比較=必ずt検定」
→ その前に確認すべきは
対応がある giving なのか?ないのか?
DS検定では
「同じ対象かどうか」が最大の判断ポイントです。
❌ 「分散が等しいかは気にしなくてよい」
→ 対応がない場合は重要です。
選択肢で
- 「分散が等しいと仮定する」
- 「分散が異なる場合にも使える」
と書いてあったら注意。
❌ 「データ数が同じなら対応がある」
→ 間違いです。
データ数が同じでも
同一対象かどうかが本質です。
まとめ(試験直前用)
- 同じ対象を2回測定 → 対応があるデータ
- 別々の集団比較 → 対応がないデータ
- 対応がある → 対応のあるt検定
- 対応がない → 分散確認 → スチューデント or ウェルチ
DS検定では
「同じ人か?別の人か?」をまず判断すること。
ここを外さなければ選択肢はかなり切れます。
対応スキル項目(データサイエンス力シート)
- スキルカテゴリ:データ理解
- サブカテゴリ:統計解析
- ★ 検定の前提条件(対応の有無、分散の等質性など)を理解し、適切な手法を選択できる
- ★ 仮説検定の考え方(帰無仮説・対立仮説)を理解している
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】