ds statistics
まず結論
相関とは「2つのデータが一緒に変化する関係」、因果とは「一方が原因となってもう一方が結果として変化する関係」です。
DS検定では
相関があるからといって因果関係があるとは限らない
という判断ができるかがよく問われます。
つまり
相関 ≠ 因果
という理解が非常に重要です。
直感的な説明
データ分析では、2つのデータの間に関係が見つかることがあります。
例えば
気温
アイスクリームの売上
この2つには強い関係があります。
気温が上がると
アイスの売上が増える
という傾向があるためです。
このように
2つのデータが一緒に変化する関係
を 相関(correlation) といいます。
しかし、すべての相関が
原因と結果の関係(因果関係)
とは限りません。
定義・仕組み
相関
相関とは
2つの変数がどのように一緒に変化するか
を表す関係です。
例えば
気温が上がる → アイス売上が増える
勉強時間が増える → テスト点数が上がる
などです。
相関は
相関係数
という指標で表されることが多くあります。
因果
因果とは
一方が原因となり、もう一方が結果として変化する関係
です。
例えば
勉強時間 → テスト点数
の場合
勉強時間が増えることで
点数が上がる可能性があります。
この場合は
原因(勉強時間) → 結果(点数)
という因果関係があると考えられます。
どんな場面で使う?
データ分析では
まず
相関があるかどうか
を調べることが多くあります。
例えば
広告費と売上
気温と電力消費
利用時間とアプリ課金
などです。
しかしビジネスで重要なのは
本当に原因になっているか(因果)
です。
例えば
広告費と売上に相関があっても
季節
キャンペーン
などの影響で
売上が変わっている可能性もあります。
そのため
相関を見つけた後に因果を検証する
という流れになります。
よくある誤解・混同
相関がある=原因である
これはデータ分析で最もよくある誤解です。
有名な例として
アイスクリームの売上
溺水事故
には相関があります。
しかし
アイスを食べることが
溺水事故の原因ではありません。
実際の原因は
気温が高いこと
です。
このように
第三の要因(交絡要因)が存在することがあります。
DS検定では
相関と因果を区別できるか
という問題がよく出題されます。
相関が強いほど原因である
これも誤解です。
相関が強くても
偶然
外部要因
などで発生している場合があります。
そのため
相関だけでは因果関係は証明できません。
まとめ(試験直前用)
相関と因果は次のように整理できます。
相関 → 一緒に変化する関係
因果 → 原因と結果の関係
覚えるポイント
相関 ≠ 因果
第三の要因(交絡要因)が存在する場合がある
DS検定では
相関関係をそのまま原因と解釈していないか
という視点で選択肢を判断することが重要です。
対応スキル項目(データサイエンス力シート)
スキルカテゴリ名 データサイエンス基礎
サブカテゴリ名 データ理解
★ 相関や回帰など、複数の変数間の関係性を理解し説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】