ds statistics
まず結論
相関係数は「2つのデータの関係の強さ」を表し、決定係数は「その関係でどれくらい説明できるか」を表す指標です。
DS検定では
相関係数と決定係数の違い
決定係数の意味
を理解しているかが問われます。
特に
決定係数 = 相関係数²(単回帰の場合)
という関係はよく出題されます。
直感的な説明
例えば
勉強時間 テスト点数
1時間 50 2時間 60 3時間 70
のようなデータがあるとします。
この場合
勉強時間が増えるほど点数も上がる
という関係があります。
このとき
どれくらい強く関係しているか
を見るのが
相関係数です。
一方で
この関係を使って
点数を予測するモデル
を作ったとき
どれくらいデータを説明できているか
を見る指標が
決定係数です。
定義・仕組み
相関係数
相関係数は
2つのデータの直線的な関係の強さ
を表します。
特徴
値の範囲: -1 〜 1
値 意味
1 完全な正の相関 0 相関なし -1 完全な負の相関
例えば
気温とアイス売上 → 正の相関
気温と暖房使用量 → 負の相関
になります。
決定係数
決定係数は
回帰モデルがどれくらいデータを説明できているか
を表します。
値の範囲
0 〜 1
意味
値 意味
1 完全に説明できる 0 説明できない
例えば
決定係数 = 0.64
の場合
データのばらつきの64%を説明できている
という意味になります。
相関係数との関係
単回帰では
決定係数 = 相関係数²
という関係があります。
例えば
相関係数 = 0.8
なら
決定係数 = 0.64
になります。
DS検定ではこの関係がよく出題されます。
どんな場面で使う?
相関係数は
データ同士の関係があるか
を確認するときに使います。
例えば
広告費と売上
勉強時間とテスト点数
などです。
一方で決定係数は
回帰モデルの評価
で使われます。
例えば
売上予測モデル
需要予測
などです。
よくある誤解・混同
相関が高い=予測できる
これは誤解です。
相関が高くても
外れ値
説明変数不足
などの理由で
予測が当たらないことがあります。
相関係数0=関係なし
相関係数は
直線関係
しか測れません。
例えば
y = x²
のような関係では
相関係数が0になることがあります。
DS検定では
相関係数0は「直線関係がない」ことを意味する
という理解が重要です。
まとめ(試験直前用)
相関係数と決定係数は次のように整理できます。
相関係数 → 関係の強さ
決定係数 → モデルの説明力
覚えるポイント
相関係数の範囲は -1〜1
決定係数の範囲は 0〜1
単回帰では
決定係数 = 相関係数²
DS検定では
相関の意味と決定係数の意味を区別できるか
がよく問われます。
対応スキル項目(データサイエンス力シート)
スキルカテゴリ名 データサイエンス基礎
サブカテゴリ名 統計数理基礎
★ 相関や回帰など、複数の変数間の関係性を理解し説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】