gk
G検定トップ
> AdaDelta(適応的学習率最適化)とは?【G検定対策】
まず結論
- AdaDelta とは、学習率を事前に決めず、過去の勾配情報から自動的に調整する最適化手法である
- G検定では「AdaGradの欠点を改善した手法」「学習率を明示的に設定しない」点が問われる
直感的な説明
AdaDeltaは、 「最近の学習の様子を見て、 今どれくらいパラメータを動かすべきかを決める」方法。
- 学習が進みすぎていれば → 動きを小さく
- 学習が足りなければ → 動きを大きく
人間で言うと、 過去の失敗・成功の“記憶”を見ながら慎重さを調整するイメージ。
定義・仕組み
AdaGrad の問題点
- 学習が進むにつれて
- 学習率がどんどん小さくなり
- 途中で学習が止まりやすい
AdaDelta の工夫
- 勾配の累積和を使わず
- 指数移動平均(直近の情報を重視)を使う
-
その結果:
- 学習率の極端な減少を防ぐ
- 学習率を事前に設定しなくてよい
※ G検定では数式不要。 「AdaGradの改良版」で十分。
いつ使う?(得意・不得意)
得意
- 学習率調整が難しい場合
- ハイパーパラメータを減らしたい場合
不得意
- Adam など、より高性能な手法が使える場合
- 現代の大規模深層学習(実務では使用頻度低め)
G検定ひっかけポイント
よくある混同①:AdaGrad
- ❌ AdaDelta=AdaGradと同じ
- ✅ AdaGradの学習率減少問題を改善
よくある混同②:Adam
- ❌ AdaDelta=Adam
-
✅ Adamは
- モーメント(1次・2次)を使う
- AdaDeltaとは別系統
選択肢の判断基準
- 「学習率を事前に決めない」→ AdaDelta
- 「AdaGradの欠点を改善」→ AdaDelta
- 「モーメント+適応学習率」→ Adam
まとめ(試験直前用)
- AdaDelta=AdaGrad改良版
- 学習率を明示的に設定しない
- 直近の勾配情報を重視
- Adamとは別
- 「学習率を決めない」が出たらAdaDelta
🔗 関連記事
🏠 G検トップに戻る