ds modeling evaluation
まず結論
分類モデルの評価指標の比較とは、「何を減らしたいのか」という目的に応じて Accuracy・Precision・Recall・F1・ROC・PR を使い分けることです。
DS検定では「どの指標を選ぶべきか」を判断させる問題が多く出題されます。
直感的な説明
モデル評価は「テストの点数」ではありません。
- 病気の見逃しを防ぎたい
- 不良品を確実に検出したい
- 無駄な精密検査を減らしたい
目的によって「良いモデル」の定義は変わります。
だからこそ、
正解率が高い=良いモデル
とは限りません。
評価指標は
何を優先するかを数値で表したものです。
定義・仕組み
まず前提となるのが 混同行列(Confusion Matrix) です。
| 実際:陽性 | 実際:陰性 | |
|---|---|---|
| 予測:陽性 | TP(真陽性) | FP(偽陽性) |
| 予測:陰性 | FN(偽陰性) | TN(真陰性) |
- TP:正しく陽性と予測
- FP:本当は陰性なのに陽性と予測
- FN:本当は陽性なのに陰性と予測
- TN:正しく陰性と予測
Accuracy(正解率)
\[Accuracy = \frac{TP + TN}{全体}\]全体のうちどれだけ正解したか。
※ 不均衡データでは注意。
Precision(適合率)
\[Precision = \frac{TP}{TP + FP}\]陽性と予測した人のうち、本当に陽性だった割合。
→ 偽陽性を減らしたいとき。
Recall(再現率・感度・TPR)
\[Recall = \frac{TP}{TP + FN}\]実際に陽性の人をどれだけ拾えたか。
→ 偽陰性を減らしたいとき。
※ TPR(True Positive Rate)と同じ。
Specificity(特異度)
\[Specificity = \frac{TN}{TN + FP}\]実際に陰性をどれだけ正しく除外できたか。
FPR(偽陽性率)
\[FPR = \frac{FP}{FP + TN}\]実際に陰性なのに陽性と誤判定した割合。
※ FPR = 1 − Specificity
F1スコア
\[F1 = \frac{2 \times Precision \times Recall}{Precision + Recall}\]PrecisionとRecallのバランスを見る指標。
ROC曲線
- 縦軸:TPR(Recall)
- 横軸:FPR
モデルの全体的な識別能力を見る。
PR曲線
- 縦軸:Precision
- 横軸:Recall
陽性クラスの性能を見る。
不均衡データで有効。
どんな場面で使う?
見逃しを防ぎたい
→ Recall
無駄な陽性を減らしたい
→ Precision
両方重要
→ F1
クラス均衡
→ ROC-AUC
不均衡データ(陽性が少ない)
→ PR曲線
DS検定では
「発生率2%」「陽性が非常に少ない」と書かれていたら
PR曲線を疑います。
よくある誤解・混同
医療=必ずRecall?
目的次第です。
- 見逃し防止 → Recall
- 誤検知削減 → Precision
Accuracyが高い=良い?
陽性1%の場合、
全員を陰性と予測してもAccuracy99%。
選択肢では
「正解率が最も重要」と書かれていたら注意。
ROCとPRの違いが曖昧
- ROC → 全体性能
- PR → 不均衡データに強い
DS検定ではこの切り分けを問われます。
まとめ(試験直前用)
- 減らしたい誤りで決める
- 偽陰性を減らす → Recall
- 偽陽性を減らす → Precision
- 不均衡データ → PR曲線
- Accuracyは万能ではない
「何を守りたいのか?」を読む。
対応スキル項目(データサイエンス力シート)
- 数理・統計基礎力
- 統計的推論
- ★ データの特性に応じて適切な評価指標を選択できる
🔗 関連記事
- A/Bテストとは?データで施策を比較する方法【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】