ds modeling evaluation
まず結論
不純度とは、データがどれだけ混ざっているか(クラスがどれだけバラバラか)を表す指標です。
DS検定では、「良い分岐とは何か?」を判断させる問題で問われます。
直感的な説明
たとえば、あるグループに
- すべて「合格」
- すべて「不合格」
のどちらかだけが入っていれば、とても分かりやすい状態です。
→ これは「純粋(不純度が低い)」です。
一方で、
- 合格と不合格が半々に混ざっている
→ これは「混ざっている(不純度が高い)」状態です。
つまり、
不純度が低い = クラスがはっきりしている
不純度が高い = クラスが混ざっている
これが本質です。
定義・仕組み
不純度とは、
あるノード(分岐後のグループ)のクラスの混ざり具合
を数値化したものです。
代表的な指標は2つあります。
① ジニ不純度(Gini impurity)
- ランダムフォレストでよく使われる
- 計算が軽い
② エントロピー(Entropy)
- 情報利得で使われる
- 情報理論ベース
どちらも考え方は同じです。
クラスが均等に混ざるほど値は大きくなる
1種類だけになると最小になる
DS検定では、数式よりも
「混ざり具合を測る指標」
と理解していれば十分です。
どんな場面で使う?
① 決定木の分岐基準
決定木は、
「どの特徴量で分けると一番きれいに分かれるか?」
を判断します。
このとき、
分岐後の不純度が小さくなるように特徴量を選ぶ
というルールを使います。
つまり、
- 不純度が大きく下がる分岐 = 良い分岐
です。
② ランダムフォレストの内部
ランダムフォレストも、各決定木で
不純度を下げる方向に分岐します。
その「どれだけ下げたか」の合計が
特徴量重要度に使われることがあります。
よくある誤解・混同
❌ 不純度が大きいほど良い
→ 逆です。
小さいほど良い状態です。
DS検定では
「不純度が最大のときが最良」といった選択肢が出たら誤りです。
❌ 不純度 = 情報利得
→ 違います。
- 不純度 → 今の混ざり具合
- 情報利得 → 分岐でどれだけ不純度が減ったか
この違いはよく問われます。
❌ 不純度が低い = モデルが高精度
→ 必ずしもそうではありません。
1つのノードが純粋でも、
全体として汎化できるとは限りません。
ここは「過学習」と絡めて出題されることがあります。
まとめ(試験直前用)
- 不純度 = クラスの混ざり具合
- 小さいほど良い状態
- 決定木は不純度を下げる方向に分岐する
- 情報利得は「不純度の減少量」
- 不純度と精度は同義ではない
対応スキル項目(AI利活用スキルシート)
- AIの理解
- 機械学習の基本理解
- ★ 機械学習モデルの基本的な仕組みを理解している
🔗 関連記事
- A/Bテストとは?データで施策を比較する方法【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】