Skip to the content.

DS検定トップ > ピアソンの相関係数とは?関係の強さをどう読むか【DS検定】

まず結論

ピアソンの相関係数とは、「2つの数値データがどれくらい直線的に一緒に動くか」を表す指標です。

DS検定では、「相関の強さ」と「因果関係」を区別できるかどうかを判断させる問題がよく出ます。

直感的な説明

たとえば、

  • 勉強時間が増えると、テストの点数も上がる
  • 気温が上がると、アイスの売上が増える

このように「片方が増えると、もう片方も増える」関係があります。

ピアソンの相関係数は、この
“一緒に動く度合い”を −1 〜 1 の間で数値化したものです。

  • 1に近い → 強い正の相関
  • −1に近い → 強い負の相関
  • 0に近い → 直線的な関係はほぼない

定義・仕組み

ピアソンの相関係数(Pearson correlation coefficient)は、次の式で定義されます。

\[r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\]

式の意味

  • Cov(X, Y) :共分散(どれくらい一緒に増減しているか)
  • σX、σY :それぞれの標準偏差(ばらつき)

つまり、

「一緒にどれくらい動いているか」を
「それぞれのばらつきの大きさ」で割って正規化したもの

という意味です。

これにより、

  • 単位の違い(円・℃・個数など)の影響を受けない
  • 値は必ず −1 〜 1 の範囲になる

という性質を持ちます。

計算式の展開形(参考)

より具体的な形は次の通りです。

\[r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}}\]

式を丸暗記する必要はありません。

DS検定では、

  • 「共分散を標準偏差で割っている」
  • 「ばらつきを考慮して正規化している」

という意味が理解できていれば十分です。

どんな場面で使う?

✅ 使うべき場面

  • 数値データ同士の関係を調べたいとき
  • 直線的な関係を確認したいとき
  • 特徴量同士の関係を確認するとき

⚠ 注意が必要な場面

  • 曲線的な関係(U字型など)
  • 外れ値が強く影響する場合
  • カテゴリーデータ

DS検定では、

「相関係数が0だから関係がない」

という選択肢は誤りです。

正しくは、

「直線的な関係がない」

という意味です。

よくある誤解・混同

① 相関と因果の混同

相関がある
= 原因である
ではありません。

DS検定では、

「相関があるため、AがBの原因である」

という選択肢は誤りと判断できます。

② 相関係数の範囲を間違える

相関係数は必ず −1 〜 1 の間です。

1.5 や −2 などの値はありえません。

③ スピアマンの順位相関との混同

  • ピアソン:数値の直線関係を見る
  • スピアマン:順位の関係を見る

順序データにピアソンを使っている選択肢は怪しいと判断できます。

まとめ(試験直前用)

  • ピアソンは「直線関係の強さ」を表す
  • −1〜1の範囲に収まる
  • 0は「無関係」ではなく「直線関係がない」
  • 相関 ≠ 因果
  • 共分散を標準偏差で割ったもの

対応スキル項目(データサイエンス力シート)

  • データ理解
  • データの関係性把握
  • ★ 相関係数の意味を理解している

🔗 関連記事


🏠 DS検定トップに戻る