ds statistics
DS検定トップ
> 相関と因果の違いを一発で整理【DS検定リテラシー】
まず結論
相関とは「一緒に変化する関係」、因果とは「原因と結果の関係」です。
DS検定では、「相関がある=原因である」と早合点していないかを問われることが多いです。
直感的な説明
例えば、
- 気温が上がるとアイスクリームの売上が増える
これはよくある例です。
確かにデータを見ると、両者は一緒に増えています。
これが「相関」です。
しかし、
- 気温が上がることが直接の原因なのか?
- それとも「夏休み」「人出の増加」など別の要因があるのか?
ここまではデータだけでは分かりません。
ビジネスの現場でも、
「売上と広告費に相関がある」からといって、
必ずしも広告が原因とは限らないのです。
定義・仕組み
相関(correlation)
2つの変数がどれくらい「一緒に変化しているか」を表す関係です。
- 正の相関:一方が増えると、もう一方も増える
- 負の相関:一方が増えると、もう一方は減る
重要なのは、
相関は「同時変化」を示すだけで、原因までは示さない
という点です。
因果(causation)
ある出来事が「原因」となり、
別の出来事が「結果」として起こる関係です。
因果を主張するには、
- 他の要因(交絡因子)を排除する
- 実験やランダム化で検証する
といった設計が必要になります。
DS検定では、
「観察データから相関が確認された」と書かれているだけなら、
因果を断定するのは危険です。
どんな場面で使う?
使うべき場面
- データ分析結果を解釈するとき
- ビジネス施策の効果を議論するとき
- AIやモデルの説明を行うとき
特にビジネス文脈では、
「相関を因果と誤解していないか」
が非常に重要です。
誤解しやすい場面
- 回帰分析を行った
- 交絡因子を調整した
と書いてあると、因果と勘違いしやすいです。
しかし、
- 観察データのみ
- ランダム化なし
であれば、基本は「因果の可能性」にとどまります。
よくある誤解・混同
① 相関が高い=原因である
→ これは誤りです。
DS検定では、
「強い相関があるため、AはBの原因である」
と書かれていたら要注意です。
② 交絡因子を入れた=因果と断定できる
→ これも基本は誤りです。
交絡を調整しても、
- 未知の交絡が残っている可能性
- サンプル数が十分でない可能性
があります。
③ ランダム化すれば何でも断定できる
→ これも言い過ぎです。
ランダム化は因果を議論する「設計」ですが、
- サンプル数
- 統計的有意性
によって結論の強さは変わります。
まとめ(試験直前用)
- 相関=一緒に変化する関係
- 因果=原因と結果の関係
- 観察データのみなら因果断定は危険
- 「強い相関があるから原因」と書かれていたら切る
DS検定では、
「言い過ぎている選択肢」を見抜けるかが勝負です。
対応スキル項目(データサイエンス力シート)
- データ理解
- 統計的思考
- ★ 相関と因果の違いを理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】