Skip to the content.

DS検定トップ > 不純度とは?決定木での「混ざり具合」の意味【DS検定】

まず結論

不純度とは、データがどれだけ混ざっているか(クラスがどれだけバラバラか)を表す指標です。
DS検定では、「良い分岐とは何か?」を判断させる問題で問われます。

直感的な説明

たとえば、あるグループに

  • すべて「合格」
  • すべて「不合格」

のどちらかだけが入っていれば、とても分かりやすい状態です。

→ これは「純粋(不純度が低い)」です。

一方で、

  • 合格と不合格が半々に混ざっている

→ これは「混ざっている(不純度が高い)」状態です。

つまり、

不純度が低い = クラスがはっきりしている
不純度が高い = クラスが混ざっている

これが本質です。

定義・仕組み

不純度とは、

あるノード(分岐後のグループ)のクラスの混ざり具合

を数値化したものです。

代表的な指標は2つあります。

① ジニ不純度(Gini impurity)

  • ランダムフォレストでよく使われる
  • 計算が軽い

② エントロピー(Entropy)

  • 情報利得で使われる
  • 情報理論ベース

どちらも考え方は同じです。

クラスが均等に混ざるほど値は大きくなる
1種類だけになると最小になる

DS検定では、数式よりも

「混ざり具合を測る指標」

と理解していれば十分です。

どんな場面で使う?

① 決定木の分岐基準

決定木は、

「どの特徴量で分けると一番きれいに分かれるか?」

を判断します。

このとき、

分岐後の不純度が小さくなるように特徴量を選ぶ

というルールを使います。

つまり、

  • 不純度が大きく下がる分岐 = 良い分岐

です。

② ランダムフォレストの内部

ランダムフォレストも、各決定木で
不純度を下げる方向に分岐します。

その「どれだけ下げたか」の合計が
特徴量重要度に使われることがあります。

よくある誤解・混同

❌ 不純度が大きいほど良い

→ 逆です。

小さいほど良い状態です。

DS検定では
「不純度が最大のときが最良」といった選択肢が出たら誤りです。

❌ 不純度 = 情報利得

→ 違います。

  • 不純度 → 今の混ざり具合
  • 情報利得 → 分岐でどれだけ不純度が減ったか

この違いはよく問われます。

❌ 不純度が低い = モデルが高精度

→ 必ずしもそうではありません。

1つのノードが純粋でも、
全体として汎化できるとは限りません。

ここは「過学習」と絡めて出題されることがあります。

まとめ(試験直前用)

  • 不純度 = クラスの混ざり具合
  • 小さいほど良い状態
  • 決定木は不純度を下げる方向に分岐する
  • 情報利得は「不純度の減少量」
  • 不純度と精度は同義ではない

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

🔗 関連記事


🏠 DS検定トップに戻る