gk machine_learning underfitting
G検定トップ
> 未学習(Underfitting)
まず結論
- 未学習とは、モデルが十分に学習できていない状態
- 学習データ・テストデータ どちらでも精度が低い
- モデルが「考える力を持てていない」ことが原因
直感的な説明
未学習は、
教科書をほとんど読まずに試験を受けた状態
に近いです。
- 問題の傾向をつかめていない
- どの問題もだいたい外す
という状態になります。
定義・仕組み
未学習とは?
モデルが、
- データの基本的な傾向すら捉えられていない
- 表現力が不足している
状態を 未学習(Underfitting) といいます。
未学習が起きやすい条件
- モデルが単純すぎる
- 学習回数(エポック)が少なすぎる
- 正則化が強すぎる
- 重要な特徴量が不足している
学習曲線の特徴
- 学習誤差:高いまま
- 検証誤差:高いまま
👉 どちらも改善しないのが未学習の特徴
どうやって改善する?(代表的な対策)
モデルを複雑にする
- 層を増やす
- ニューロン数を増やす
- 非線形性を強くする
学習を十分に行う
- エポック数を増やす
- 学習率を適切に調整する
正則化を弱める
- L1 / L2 の係数を小さくする
- ドロップアウト率を下げる
特徴量を見直す
- 有効な特徴量を追加
- 前処理の改善
G検定ひっかけポイント
- ❌「未学習は学習データだけ精度が高い」→ 誤り
- ❌「正則化は未学習を防ぐ」→ 誤り(強すぎると未学習)
- ✅ 学習誤差・検証誤差 両方が高い
- ✅ モデルが単純すぎると未学習
過学習との対比(重要)
| 状態 | 学習誤差 | 検証誤差 |
|---|---|---|
| 未学習 | 高い | 高い |
| 過学習 | 低い | 高い |
| 適切 | 低い | 低い |
👉 この表はG検定頻出
まとめ(試験直前用)
- 未学習=学習不足
- 学習・検証どちらも精度が低い
- 対策は
モデル強化 / 学習回数増加 / 正則化を弱める
👉 次は 過学習とのセット問題 を意識して覚える。
🔗 関連記事
- Bag of Words(BoW)とは?【文章の数値化手法|G検定対策】
- バイアス・バリアンス トレードオフ
- 交差検証(Cross Validation)とは?【k分割の考え方|G検定対策】
- 次元の呪い(Curse of Dimensionality)とは?G検定対策
- データリーケージ(Data Leakage)とは?【原因と典型例|G検定対策】
🏠 G検トップに戻る