Skip to the content.

DS検定トップ > 相関と因果の違いを一発で整理【DS検定リテラシー】

まず結論

相関とは「一緒に変化する関係」、因果とは「原因と結果の関係」です。

DS検定では、「相関がある=原因である」と早合点していないかを問われることが多いです。

直感的な説明

例えば、

  • 気温が上がるとアイスクリームの売上が増える

これはよくある例です。

確かにデータを見ると、両者は一緒に増えています。
これが「相関」です。

しかし、

  • 気温が上がることが直接の原因なのか?
  • それとも「夏休み」「人出の増加」など別の要因があるのか?

ここまではデータだけでは分かりません。

ビジネスの現場でも、
「売上と広告費に相関がある」からといって、
必ずしも広告が原因とは限らないのです。

定義・仕組み

相関(correlation)

2つの変数がどれくらい「一緒に変化しているか」を表す関係です。

  • 正の相関:一方が増えると、もう一方も増える
  • 負の相関:一方が増えると、もう一方は減る

重要なのは、

相関は「同時変化」を示すだけで、原因までは示さない

という点です。

因果(causation)

ある出来事が「原因」となり、
別の出来事が「結果」として起こる関係です。

因果を主張するには、

  • 他の要因(交絡因子)を排除する
  • 実験やランダム化で検証する

といった設計が必要になります。

DS検定では、
「観察データから相関が確認された」と書かれているだけなら、
因果を断定するのは危険です。

どんな場面で使う?

使うべき場面

  • データ分析結果を解釈するとき
  • ビジネス施策の効果を議論するとき
  • AIやモデルの説明を行うとき

特にビジネス文脈では、

「相関を因果と誤解していないか」

が非常に重要です。

誤解しやすい場面

  • 回帰分析を行った
  • 交絡因子を調整した

と書いてあると、因果と勘違いしやすいです。

しかし、

  • 観察データのみ
  • ランダム化なし

であれば、基本は「因果の可能性」にとどまります。

よくある誤解・混同

① 相関が高い=原因である

→ これは誤りです。

DS検定では、

「強い相関があるため、AはBの原因である」

と書かれていたら要注意です。

② 交絡因子を入れた=因果と断定できる

→ これも基本は誤りです。

交絡を調整しても、

  • 未知の交絡が残っている可能性
  • サンプル数が十分でない可能性

があります。

③ ランダム化すれば何でも断定できる

→ これも言い過ぎです。

ランダム化は因果を議論する「設計」ですが、

  • サンプル数
  • 統計的有意性

によって結論の強さは変わります。

まとめ(試験直前用)

  • 相関=一緒に変化する関係
  • 因果=原因と結果の関係
  • 観察データのみなら因果断定は危険
  • 「強い相関があるから原因」と書かれていたら切る

DS検定では、
「言い過ぎている選択肢」を見抜けるかが勝負です。

対応スキル項目(データサイエンス力シート)

  • データ理解
  • 統計的思考
  • ★ 相関と因果の違いを理解している

🔗 関連記事


🏠 DS検定トップに戻る