Skip to the content.

DS検定トップ > ジニ不純度とエントロピーの違いとは?分岐基準を整理【DS検定】

まず結論

ジニ不純度とエントロピーは、どちらも「クラスの混ざり具合」を測る指標です。
DS検定では、「どちらが分岐基準として使われるか」「何を比較しているのか」を判断させる問題が出ます。

直感的な説明

どちらも考えていることは同じです。

  • 1種類だけ → はっきりしている(良い)
  • 半々に混ざる → 迷う(悪い)

つまり、

混ざりが大きいほど値が大きくなる
きれいに分かれるほど値が小さくなる

この点は共通です。

違うのは「計算方法」です。

定義・仕組み

ジニ不純度(Gini impurity)

  • ランダムフォレストでよく使われる
  • 計算が比較的シンプル
  • 実務では標準設定で使われることが多い

考え方: 「ランダムに1つ選んだときに、間違う確率」

エントロピー(Entropy)

  • 情報理論ベース
  • 情報利得の計算に使われる
  • ID3アルゴリズムで有名

考え方: 「どれだけ不確実か(どれだけ迷うか)」

共通点

  • 混ざるほど大きくなる
  • 1クラスのみで最小
  • 分岐評価に使われる

違い(DS検定で問われやすい)

観点 ジニ不純度 エントロピー
ベース理論 確率的な誤分類 情報理論
主な用途 ランダムフォレスト 情報利得計算
計算コスト やや軽い やや重い

ただし、実務では結果はほぼ似ることが多いです。

どんな場面で使う?

① 決定木の分岐基準

どちらも「どの特徴量で分けるか」を決めるために使います。

DS検定では

  • 「分岐基準として用いられる指標はどれか?」
  • 「情報利得の計算に使われるのはどれか?」

といった形で問われます。

② 特徴量重要度の理解

ランダムフォレストでは、

不純度をどれだけ減らしたか

の合計が重要度になります。

このとき使われるのは通常ジニ不純度です。

よくある誤解・混同

❌ エントロピーのほうが常に優れている

→ そんなことはありません。

DS検定では「どちらも分岐基準」と整理できれば十分です。

❌ ジニ不純度と情報利得は同じ

→ 違います。

  • ジニ不純度 → 混ざり具合そのもの
  • 情報利得 → エントロピーの減少量

ここは頻出の混同ポイントです。

❌ 値が大きいほうを選ぶ

→ 分岐後は「小さいほう」が良い状態です。

選択肢では
「不純度が最大となる分岐を選ぶ」
と書かれていたら誤りです。

まとめ(試験直前用)

  • 両方とも「混ざり具合」を測る指標
  • 小さいほど良い状態
  • ジニ不純度は実務でよく使われる
  • エントロピーは情報利得とセット
  • どちらも分岐基準として使われる

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

🔗 関連記事


🏠 DS検定トップに戻る