Skip to the content.

DS検定トップ > 共分散と相関係数の違いとは?2つのデータの関係を理解する【DS検定】

まず結論

共分散と相関係数は、2つのデータがどのような関係で動くかを表す指標です。

DS検定では特に

2つのデータの関係を見る指標は何か

共分散と相関係数の違い

を理解しているかが問われます。

ポイントは次の通りです。

共分散 → 2つのデータが一緒に増減するか

相関係数 → 関係の強さを -1〜1 で表す

直感的な説明

例えば次のようなデータを考えます。

気温 アイス売上

20℃ 100 25℃ 150 30℃ 200

この場合

気温が上がると売上も増えています。

このように

片方が増えるともう片方も増える

という関係を調べるときに使うのが

共分散

相関係数

です。

逆に

気温 暖房使用量

10℃ 多い 20℃ 少ない

のように

片方が増えるともう片方が減る

という関係もあります。

このような関係も統計で表すことができます。

定義・仕組み

共分散と相関係数は

2つのデータの平均からのズレ

を使って計算されます。

共分散

共分散は

2つのデータが同じ方向に動くか

を見る指標です。

共分散の特徴

正の値 → 一緒に増える

負の値 → 片方が増えるともう片方が減る

例えば

気温とアイス売上 → 正の共分散

気温と暖房使用量 → 負の共分散

になります。

ただし共分散には問題があります。

それは

単位の影響を受けること

です。

例えば

身長(cm)

身長(m)

のように単位を変えると

共分散の値も変わってしまいます。

相関係数

この問題を解決した指標が

相関係数です。

相関係数の特徴

値の範囲: -1 〜 1

絶対値が大きいほど関係が強い

意味は次の通りです。

値 意味

1 完全な正の相関 0 相関なし -1 完全な負の相関

相関係数は

共分散を標準化した指標

と考えると理解しやすくなります。

どんな場面で使う?

共分散や相関係数は

データ同士の関係を調べるとき

に使われます。

例えば

広告費と売上

気温と電力消費

勉強時間とテスト点数

などです。

データ分析ではまず

相関があるかどうか

を確認してから

回帰分析

予測モデル

を作ることが多くあります。

よくある誤解・混同

相関がある=因果関係がある

これは非常によくある誤解です。

DS検定でも

相関と因果の違い

はよく問われます。

例えば

アイス売上

溺死事故

には相関があります。

しかし原因は

気温

です。

このように

相関 ≠ 因果

であることに注意が必要です。

相関係数0=関係がない

これも注意が必要です。

相関係数は

直線の関係

しか測れません。

例えば

y = x²

のような関係では

相関係数が0に近くなることがあります。

DS検定では

相関係数0は「直線関係がない」ことを意味する

という理解が重要です。

まとめ(試験直前用)

共分散と相関係数は

2つのデータの関係

を表す指標です。

覚えるポイント

共分散 → 一緒に増減するか

相関係数 → 関係の強さ

相関係数の範囲は -1〜1

DS検定では

相関 ≠ 因果

相関係数0でも関係がある場合がある

という点がよく問われます。

対応スキル項目(データサイエンス力シート)

スキルカテゴリ名 データサイエンス基礎

サブカテゴリ名 統計数理基礎

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる

🔗 関連記事


🏠 DS検定トップに戻る