ds statistics
まず結論
共分散と相関係数は、2つのデータがどのような関係で動くかを表す指標です。
DS検定では特に
2つのデータの関係を見る指標は何か
共分散と相関係数の違い
を理解しているかが問われます。
ポイントは次の通りです。
共分散 → 2つのデータが一緒に増減するか
相関係数 → 関係の強さを -1〜1 で表す
直感的な説明
例えば次のようなデータを考えます。
気温 アイス売上
20℃ 100 25℃ 150 30℃ 200
この場合
気温が上がると売上も増えています。
このように
片方が増えるともう片方も増える
という関係を調べるときに使うのが
共分散
相関係数
です。
逆に
気温 暖房使用量
10℃ 多い 20℃ 少ない
のように
片方が増えるともう片方が減る
という関係もあります。
このような関係も統計で表すことができます。
定義・仕組み
共分散と相関係数は
2つのデータの平均からのズレ
を使って計算されます。
共分散
共分散は
2つのデータが同じ方向に動くか
を見る指標です。
共分散の特徴
正の値 → 一緒に増える
負の値 → 片方が増えるともう片方が減る
例えば
気温とアイス売上 → 正の共分散
気温と暖房使用量 → 負の共分散
になります。
ただし共分散には問題があります。
それは
単位の影響を受けること
です。
例えば
身長(cm)
身長(m)
のように単位を変えると
共分散の値も変わってしまいます。
相関係数
この問題を解決した指標が
相関係数です。
相関係数の特徴
値の範囲: -1 〜 1
絶対値が大きいほど関係が強い
意味は次の通りです。
値 意味
1 完全な正の相関 0 相関なし -1 完全な負の相関
相関係数は
共分散を標準化した指標
と考えると理解しやすくなります。
どんな場面で使う?
共分散や相関係数は
データ同士の関係を調べるとき
に使われます。
例えば
広告費と売上
気温と電力消費
勉強時間とテスト点数
などです。
データ分析ではまず
相関があるかどうか
を確認してから
回帰分析
予測モデル
を作ることが多くあります。
よくある誤解・混同
相関がある=因果関係がある
これは非常によくある誤解です。
DS検定でも
相関と因果の違い
はよく問われます。
例えば
アイス売上
溺死事故
には相関があります。
しかし原因は
気温
です。
このように
相関 ≠ 因果
であることに注意が必要です。
相関係数0=関係がない
これも注意が必要です。
相関係数は
直線の関係
しか測れません。
例えば
y = x²
のような関係では
相関係数が0に近くなることがあります。
DS検定では
相関係数0は「直線関係がない」ことを意味する
という理解が重要です。
まとめ(試験直前用)
共分散と相関係数は
2つのデータの関係
を表す指標です。
覚えるポイント
共分散 → 一緒に増減するか
相関係数 → 関係の強さ
相関係数の範囲は -1〜1
DS検定では
相関 ≠ 因果
相関係数0でも関係がある場合がある
という点がよく問われます。
対応スキル項目(データサイエンス力シート)
スキルカテゴリ名 データサイエンス基礎
サブカテゴリ名 統計数理基礎
★ 相関や回帰など、複数の変数間の関係性を理解し説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】