ds modeling evaluation
まず結論
決定係数(R²)と寄与率は、回帰モデルがどれくらいデータを説明できているかを表す指標です。
DS検定では
決定係数の意味
相関係数との関係
寄与率との違い
がよく問われます。
ポイントは次の通りです。
決定係数 → モデルの説明力
寄与率 → どれくらい説明できたかの割合
実務では
寄与率 = 決定係数
として扱われることが多いです。
直感的な説明
例えば
「売上」を予測するモデルを作ったとします。
説明変数
気温
目的変数
アイス売上
このとき
気温を使って売上を予測するモデルを作った結果
決定係数 = 0.64
だったとします。
これは
売上のばらつきの64%をこのモデルで説明できている
という意味です。
つまり
64% → モデルで説明できる
36% → まだ説明できていない
という状態です。
定義・仕組み
決定係数
決定係数は
回帰モデルの説明力
を表す指標です。
値の範囲
0 〜 1
意味
値 意味
1 完全に説明できる 0 全く説明できない
例えば
R² = 0.8
なら
データのばらつきの80%を説明できている
という意味になります。
寄与率
寄与率は
モデルがどれくらいデータに寄与しているか
を表す指標です。
多くの場合
寄与率 = 決定係数
として扱われます。
DS検定では
寄与率は説明できた割合
と理解しておくと判断しやすくなります。
相関係数との関係
単回帰の場合
決定係数 = 相関係数²
という関係があります。
例えば
相関係数 = 0.8
なら
決定係数 = 0.64
になります。
DS検定ではこの関係を利用した問題がよく出ます。
どんな場面で使う?
決定係数は
回帰モデルの評価
に使われます。
例えば
売上予測
需要予測
機械の故障予測
などです。
データ分析では
モデルを作る
決定係数で評価する
という流れになります。
よくある誤解・混同
決定係数が高い=良いモデル
必ずしもそうとは限りません。
例えば
外れ値
過学習
などがあると
決定係数が高くても実用性が低い場合があります。
相関係数と決定係数の混同
DS検定では
相関係数
決定係数
を混同させる問題がよく出ます。
整理すると
相関係数 → 関係の強さ
決定係数 → 説明力
です。
まとめ(試験直前用)
決定係数と寄与率は
回帰モデルの説明力
を表します。
覚えるポイント
決定係数の範囲は 0〜1
寄与率は説明できた割合
単回帰では
決定係数 = 相関係数²
DS検定では
相関係数と決定係数の意味を区別できるか
が重要になります。
対応スキル項目(データサイエンス力シート)
スキルカテゴリ名 データサイエンス基礎
サブカテゴリ名 統計数理基礎
★ 相関や回帰など、複数の変数間の関係性を理解し説明できる
🔗 関連記事
- A/Bテストとは?データで施策を比較する方法【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】