自由度調整済み決定係数とは？決定係数との違い【DS検定】

まず結論

自由度調整済み決定係数（Adjusted R²）とは、回帰モデルの説明力を表す決定係数に対して、説明変数の数による見かけの改善を差し引いた指標です。

DS検定では、次の切り分けが重要です。

指標	見ていること	試験での判断ポイント
決定係数（R²）	回帰モデルの説明力	説明変数を増やすと基本的に下がりにくい
自由度調整済み決定係数	変数数を考慮した説明力	不要な変数を追加すると下がることがある

迷ったら、説明変数の数が異なる回帰モデルを比べる話なら、自由度調整済み決定係数を考えます。

直感的な説明

売上を説明する回帰モデルを考えます。

最初は、説明変数が「広告費」だけだったとします。そこへ次の変数を追加します。

気温
曜日
店舗面積
SNS投稿数
担当者の人数

説明変数を増やすほど、モデルは手元のデータに合わせやすくなります。そのため、決定係数だけを見ると、モデルが良くなったように見えやすくなります。

しかし、追加した変数が本当に役立っているとは限りません。

決定係数：どれくらいデータに当てはまっているかを見る
自由度調整済み決定係数：変数を増やした効果が、複雑さに見合うかも見る

自由度調整済み決定係数は、不要な説明変数を追加して数字だけを良く見せることを防ぐためのチェックと考えると分かりやすいです。

定義・仕組み

決定係数（R²）

決定係数は、回帰モデルが目的変数のばらつきをどれくらい説明できているかを表します。

切片を含み、学習に使ったデータへの当てはまりを見る基本的な場面では、0から1の範囲で考えることが多いです。

1に近い：モデルの説明力が高い
0に近い：モデルの説明力が低い

ただし、未知データで評価した場合や、切片を含まないモデルなどでは、決定係数が負になることがあります。負の決定係数は、目的変数の平均値を予測し続ける単純な方法よりも当てはまりが悪いことを示します。

決定係数の注意点は、説明変数を追加すると基本的に下がりにくいことです。役に立たない変数を加えても、手元のデータへの当てはまりは維持または改善しやすくなります。

自由度調整済み決定係数（Adjusted R²）

自由度調整済み決定係数は、決定係数に対して、データ数と説明変数の数を考慮した調整を加えます。

説明変数を追加したときの動きは、次のように整理できます。

追加した変数	自由度調整済み決定係数の動き
モデルの説明に十分役立つ	上がることがある
ほとんど役立たない	下がることがある

同じモデルでは、自由度調整済み決定係数は通常、決定係数以下になります。また、モデルの説明力が低い場合は負の値になることもあります。

DS検定では、細かい計算式よりも、次の関係を押さえることが重要です。

状況	決定係数	自由度調整済み決定係数
説明変数を追加する	基本的に下がりにくい	不要な変数なら下がることがある
モデルの当てはまりを見る	使える	使える
変数数が異なるモデルを比較する	注意が必要	より適している

AIC・BICとの違い

自由度調整済み決定係数、AIC、BICは、いずれもモデルの複雑さを意識した比較に使われますが、読み方が違います。

指標	主な役割	良い方向
自由度調整済み決定係数	回帰モデルの説明力を変数数で調整	大きい方がよい
AIC	当てはまりと複雑さのバランスを評価	小さい方がよい
BIC	AICより複雑なモデルへ強めのペナルティを与える	小さい方がよい

自由度調整済み決定係数は、原則として同じ目的変数と同じ標本に当てはめた回帰モデルを比較するときに使います。目的変数や評価データが異なるモデルの値を、そのまま比較してはいけません。

どんな場面で使う？

説明変数の数が異なるモデルを比べる

自由度調整済み決定係数は、説明変数の数が異なる回帰モデルを比較するときに使います。

モデル	説明変数
モデルA	広告費だけ
モデルB	広告費、気温、曜日、SNS投稿数など

モデルBの決定係数が高くても、不要な変数を追加しただけかもしれません。自由度調整済み決定係数を確認すると、変数を増やした効果が複雑さに見合うかを判断しやすくなります。

変数選択の参考にする

実務では、説明変数を追加した前後で自由度調整済み決定係数を比較し、追加した変数がモデルの説明に役立っているかを確認します。

ただし、自由度調整済み決定係数だけで変数を機械的に選ぶのは危険です。業務上の意味、データ漏えい、多重共線性、因果関係、未知データでの予測性能も確認します。

予測モデルを評価する

自由度調整済み決定係数は、未知データでの予測精度を保証する指標ではありません。

予測性能を確認するときは、次のような方法も組み合わせます。

検証データやテストデータで評価する
交差検証を行う
MAEやMSEなどの誤差指標を確認する

よくある誤解・混同

誤解1：決定係数が高ければ必ず良いモデル

これは誤りです。

決定係数は、説明変数を増やすと高く見えやすくなります。過学習しているモデルでも、学習データ上の決定係数だけを見ると良く見えることがあります。

誤解2：自由度調整済み決定係数は決定係数より高い

これも誤りです。

自由度調整済み決定係数には変数数への調整が入るため、同じモデルでは通常、決定係数以下になります。

誤解3：自由度調整済み決定係数が最大なら予測精度も最高

自由度調整済み決定係数は、主に回帰モデルの説明力と複雑さを見る指標です。未知データでの予測誤差を直接表すわけではありません。

誤解4：説明変数を追加すると必ず値が上がる

決定係数は基本的に下がりにくい一方で、自由度調整済み決定係数は、役に立たない変数を追加すると下がることがあります。

誤解5：相関係数と同じ指標である

相関係数は、2つの変数の直線的な関係の強さと向きを表します。決定係数と自由度調整済み決定係数は、回帰モデルの説明力を評価する指標です。

単回帰では決定係数と相関係数の2乗が一致することがありますが、役割は同じではありません。

選択肢の判断基準

「説明変数を増やすと下がりにくい」→ 決定係数
「説明変数の数を考慮する」→ 自由度調整済み決定係数
「変数数が異なる回帰モデルを比較する」→ 自由度調整済み決定係数
「値が小さいモデルを選ぶ」→ AICやBICの可能性
「未知データの予測誤差」→ MAEやMSE、交差検証を考える

確認問題（DS検定対策）

説明変数の数が異なる複数の回帰モデルを比較するとき、最も適切な考え方はどれか。

ア. 決定係数が少しでも高いモデルを、常に最も良いモデルとする。
イ. 説明変数を増やすほど、自由度調整済み決定係数は必ず上がる。
ウ. 自由度調整済み決定係数を用いて、説明変数の数も考慮して比較する。
エ. 自由度調整済み決定係数は、分類モデルの正解率を表す。

▶ クリックして答えと解説を見る（ここを開く）

正解：ウ

解説

ア：不適切です。決定係数は説明変数を増やすと高く見えやすいため、常に最良とは判断できません。
イ：不適切です。役に立たない変数を追加すると、自由度調整済み決定係数は下がることがあります。
ウ：適切です。自由度調整済み決定係数は、説明変数の数を考慮して回帰モデルを比較する指標です。
エ：不適切です。自由度調整済み決定係数は、回帰モデルの説明力を評価する指標です。

判断ポイントは、説明変数の数が異なる回帰モデルの比較なら、自由度調整済み決定係数を考えることです。

まとめ（試験直前用）

決定係数は、回帰モデルの説明力を見る指標
説明変数を増やすと、決定係数は基本的に下がりにくい
自由度調整済み決定係数は、説明変数の数を考慮する
不要な変数を追加すると、自由度調整済み決定係数は下がることがある
AIC・BICは小さい方、自由度調整済み決定係数は大きい方を選ぶ

迷ったら、「変数を増やしただけで良く見えていないか？」を確認します。

参考情報

scikit-learn公式ドキュメント：R²（決定係数）の定義と負の値になる場合

対応スキル項目（データサイエンス力シート）

データサイエンス基礎
モデル評価
★ 回帰分析における評価指標の意味を理解している

🔗 関連記事

🏠 DS検定トップに戻る