Skip to the content.

DS検定トップ > 情報利得とは?分岐の良さを判断する基準【DS検定】

まず結論

情報利得とは、ある特徴量で分岐したときに「どれだけ不確実性が減ったか」を表す指標です。
DS検定では、「どの特徴量で分けるのが良いかを判断する基準は何か?」を問う問題で使われます。

直感的な説明

たとえば、
「売れる商品」と「売れない商品」を分類したいとします。

ある特徴量(例:価格帯)で分けたら、 片方はほぼ「売れる」だけ、もう片方はほぼ「売れない」だけになった。

→ これはとても良い分け方です。

なぜなら、分けた後は「ほぼ答えが決まっている」状態だからです。
この「分けたことでどれだけスッキリしたか」を数値にしたものが情報利得です。

定義・仕組み

情報利得は、

  • 分岐する前の「不確実さ」
  • 分岐した後の「不確実さ」

の差で決まります。

不確実さには「エントロピー」という指標を使います。

難しく考えなくて大丈夫です。
ポイントは次の1行です。

情報利得が大きい = 分けた結果、クラスがはっきりした

つまり、

  • 情報利得が大きい → 良い分岐
  • 情報利得が小さい → 分けてもあまり意味がない

という判断になります。

DS検定では「情報利得が大きい特徴量を選ぶ」と理解していれば十分です。

どんな場面で使う?

① 決定木の分岐基準

最も代表的な用途です。

決定木では、 「どの特徴量で分岐するか?」を決める必要があります。

このとき、

情報利得が最大になる特徴量を選ぶ

というルールが使われます。

② ランダムフォレストの内部理解

ランダムフォレストは決定木の集合です。
それぞれの木の中で、情報利得が使われています。

DS検定では、

  • 「分岐の基準は何か?」
  • 「特徴量の重要度はどう決まるか?」

と問われることが多いです。

よくある誤解・混同

❌ 情報利得が小さいほど重要

→ 逆です。大きいほど良い分岐です。

DS検定ではここをひっかけてきます。

❌ 情報利得 = 特徴量重要度

→ 完全に同じではありません。

情報利得は「1回の分岐」の評価です。
特徴量重要度は「木全体・森全体での貢献度」です。

❌ 情報利得が高い = 因果関係がある

→ これは誤りです。

あくまで「分類に役立つ」だけで、 原因とは限りません。

❌ Gini不純度と同じもの

→ 似ていますが別物です。

  • 情報利得 → エントロピーを使う
  • Gini → ジニ不純度を使う

どちらも「どれだけ混ざっているか」を測る指標です。

DS検定では「分岐の基準として使われる指標」として整理しておきましょう。

まとめ(試験直前用)

  • 情報利得 = 分岐でどれだけ不確実性が減ったか
  • 大きいほど良い分岐
  • 決定木の分岐基準として使われる
  • 因果を示す指標ではない
  • Gini不純度と混同しない

対応スキル項目(AI利活用スキルシート)

  • AIの理解
  • 機械学習の基本理解
  • ★ 機械学習モデルの基本的な仕組みを理解している

🔗 関連記事


🏠 DS検定トップに戻る