Skip to the content.

DS検定トップ > 対応があるデータと対応がないデータの違いとは?【DS検定】

まず結論

対応があるデータとは「同じ対象を2回測ったデータ」、対応がないデータとは「別々の対象同士を比べるデータ」です。

DS検定では、「どの検定を選ぶべきか」を判断させる問題としてよく問われます。
ここを間違えると、t検定の種類をすべて誤って選ぶことになります。

直感的な説明

✅ 対応があるデータ(ペアデータ)

例:

  • ダイエット前とダイエット後の体重
  • 研修前と研修後のテスト点数
  • 同じ機械の改良前と改良後の性能

同じ人・同じ対象を2回測っているので、1対1のペアになっています。

つまり、「変化」を見たいときのデータです。

✅ 対応がないデータ(独立データ)

例:

  • A社の売上とB社の売上
  • 男性グループと女性グループの平均身長
  • A工場とB工場の不良率

別々の集団同士を比べるので、1対1のペア関係はありません。

こちらは「グループ間の差」を見たいときです。

定義・仕組み

■ 対応があるデータ

  • 同一対象を2条件で測定したデータ
  • 個々の差(前後の差)に意味がある
  • 分析では「差の平均」を検定する

使う検定:

  • 対応のあるt検定

ポイント: 「1標本の検定」と似た考え方になります(差が0かどうかを見るため)

■ 対応がないデータ

  • 異なる集団同士の比較
  • 各グループの平均を直接比較する

使う検定の流れ:

  1. 分散が等しいか確認(F検定)
  2. 分散が等しい → スチューデントのt検定
  3. 分散が異なる → ウェルチのt検定

DS検定では
「分散が等しいと仮定しているか?」が重要な判断ポイントになります。

どんな場面で使う?

✔ 対応があるデータを使う場面

  • 改善効果の検証
  • 施策前後の比較
  • 同一人物の変化分析

👉 ビジネスでは「施策の効果検証」で非常によく使います。

✔ 対応がないデータを使う場面

  • A/Bテスト
  • 異なる店舗比較
  • 異なる顧客層比較

👉 マーケティング分析ではこちらが頻出です。

よくある誤解・混同

❌ 「前後比較=必ずt検定」

→ その前に確認すべきは
対応がある giving なのか?ないのか?

DS検定では
「同じ対象かどうか」が最大の判断ポイントです。

❌ 「分散が等しいかは気にしなくてよい」

→ 対応がない場合は重要です。

選択肢で

  • 「分散が等しいと仮定する」
  • 「分散が異なる場合にも使える」

と書いてあったら注意。

❌ 「データ数が同じなら対応がある」

→ 間違いです。

データ数が同じでも
同一対象かどうかが本質です。

まとめ(試験直前用)

  • 同じ対象を2回測定 → 対応があるデータ
  • 別々の集団比較 → 対応がないデータ
  • 対応がある → 対応のあるt検定
  • 対応がない → 分散確認 → スチューデント or ウェルチ

DS検定では
「同じ人か?別の人か?」をまず判断すること。

ここを外さなければ選択肢はかなり切れます。

対応スキル項目(データサイエンス力シート)

  • スキルカテゴリ:データ理解
  • サブカテゴリ:統計解析
  • ★ 検定の前提条件(対応の有無、分散の等質性など)を理解し、適切な手法を選択できる
  • ★ 仮説検定の考え方(帰無仮説・対立仮説)を理解している

🔗 関連記事


🏠 DS検定トップに戻る