gk
G検定トップ
> DQN改良手法まとめ(Double / Dueling / Noisy / Prioritized)【G検定対策】
まず結論
DQNの改良手法はそれぞれ解決したい「弱点」が異なる。G検定では「どの問題に対する改良か」を正確に対応づけられるかが問われる。
- Double DQN:Q値の過大評価を抑制
- Dueling Network:状態価値と行動価値を分離
- Noisy Network:探索(ε-greedy)の問題を解消
- Prioritized Experience Replay:重要な経験を重点的に学習
直感的な説明
DQNは優秀だが、実運用ではいくつかの欠点がある。
- 期待値を盛りすぎる(過大評価)
- 行動より「状態そのもの」が重要な場面がある
- 探索率 ε の調整が難しい
- 重要な経験とそうでない経験を同じ重みで学習してしまう
それぞれの改良手法は、これらの欠点を1つずつ潰すために生まれた。
定義・仕組み(4手法の役割分担)
| 手法 | 解決する問題 | 仕組みの要点 |
|---|---|---|
| Double DQN | Q値の過大評価 | 行動選択と評価を分離 |
| Dueling Network | 状態の重要度 | V(s) と A(s,a) を分離 |
| Noisy Network | 探索の制御 | ネットワークにノイズ |
| Prioritized Replay | 学習効率 | TD誤差が大きい経験を優先 |
いつ使う?(得意・不得意)
Double DQN
- 学習が不安定なとき
- Q値が過大評価されやすい環境
Dueling Network
- 行動差が小さい環境
- 状態の良し悪しが重要な問題
Noisy Network
- ε の調整が難しい場合
- 長期探索が必要なタスク
Prioritized Experience Replay
- データが多い場合
- 学習を効率化したい場合
G検定ひっかけポイント
G検定では、「探索」と「Q値評価」を混同させる選択肢が頻出。
よくある誤解
- Double DQNは探索手法 → ✕
- Noisy NetworkはQ値補正 → ✕
正誤を切る判断基準
- 過大評価? → Double DQN
- 探索方法? → Noisy Network
- 状態価値の分離? → Dueling Network
- 重要経験を優先? → Prioritized Replay
まとめ(試験直前用)
- Double:過大評価対策
- Dueling:価値の分離
- Noisy:探索改善
- Prioritized:経験の重み付け
- G検定は「何の問題を解決?」で切る
🔗 関連記事
🏠 G検トップに戻る