ds statistics
DS検定トップ
> ピアソンの相関係数とは?関係の強さをどう読むか【DS検定】
まず結論
ピアソンの相関係数とは、「2つの数値データがどれくらい直線的に一緒に動くか」を表す指標です。
DS検定では、「相関の強さ」と「因果関係」を区別できるかどうかを判断させる問題がよく出ます。
直感的な説明
たとえば、
- 勉強時間が増えると、テストの点数も上がる
- 気温が上がると、アイスの売上が増える
このように「片方が増えると、もう片方も増える」関係があります。
ピアソンの相関係数は、この
“一緒に動く度合い”を −1 〜 1 の間で数値化したものです。
- 1に近い → 強い正の相関
- −1に近い → 強い負の相関
- 0に近い → 直線的な関係はほぼない
定義・仕組み
ピアソンの相関係数(Pearson correlation coefficient)は、次の式で定義されます。
\[r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\]式の意味
- Cov(X, Y) :共分散(どれくらい一緒に増減しているか)
- σX、σY :それぞれの標準偏差(ばらつき)
つまり、
「一緒にどれくらい動いているか」を
「それぞれのばらつきの大きさ」で割って正規化したもの
という意味です。
これにより、
- 単位の違い(円・℃・個数など)の影響を受けない
- 値は必ず −1 〜 1 の範囲になる
という性質を持ちます。
計算式の展開形(参考)
より具体的な形は次の通りです。
\[r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}}\]式を丸暗記する必要はありません。
DS検定では、
- 「共分散を標準偏差で割っている」
- 「ばらつきを考慮して正規化している」
という意味が理解できていれば十分です。
どんな場面で使う?
✅ 使うべき場面
- 数値データ同士の関係を調べたいとき
- 直線的な関係を確認したいとき
- 特徴量同士の関係を確認するとき
⚠ 注意が必要な場面
- 曲線的な関係(U字型など)
- 外れ値が強く影響する場合
- カテゴリーデータ
DS検定では、
「相関係数が0だから関係がない」
という選択肢は誤りです。
正しくは、
「直線的な関係がない」
という意味です。
よくある誤解・混同
① 相関と因果の混同
相関がある
= 原因である
ではありません。
DS検定では、
「相関があるため、AがBの原因である」
という選択肢は誤りと判断できます。
② 相関係数の範囲を間違える
相関係数は必ず −1 〜 1 の間です。
1.5 や −2 などの値はありえません。
③ スピアマンの順位相関との混同
- ピアソン:数値の直線関係を見る
- スピアマン:順位の関係を見る
順序データにピアソンを使っている選択肢は怪しいと判断できます。
まとめ(試験直前用)
- ピアソンは「直線関係の強さ」を表す
- −1〜1の範囲に収まる
- 0は「無関係」ではなく「直線関係がない」
- 相関 ≠ 因果
- 共分散を標準偏差で割ったもの
対応スキル項目(データサイエンス力シート)
- データ理解
- データの関係性把握
- ★ 相関係数の意味を理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】