gk
G検定トップ
> ノイジーネットワークとは?(ε-greedyを使わない探索)【G検定対策】
まず結論
ノイジーネットワーク(Noisy Network, NoisyNet)とは、ε-greedy法が抱える「探索率εを人手で調整する必要がある」という問題を解決するために、ニューラルネットワーク自体にノイズを組み込み、探索と活用を自動的に切り替えるDQNの改良手法であり、G検定では「ε-greedyの欠点を解消する方法」として問われる。
直感的な説明
ノイジーネットワークは、
行動を選ぶたびに、 脳の考え方が少し揺れる
ような仕組みです。
-
ε-greedy:
- 「たまにランダムに動く」とルールで決める
-
ノイジーネットワーク:
- ネットワークの中身が少しずつ変わる
その結果、
明示的に ε を決めなくても、自然に探索が起こる
ようになります。
定義・仕組み
ノイジーネットワークでは、
- ニューラルネットワークの重みやバイアスにノイズを加える
- 行動価値(Q値)の推定が毎回わずかに変化する
という仕組みを使います。
これにより、
- 行動選択にばらつきが生まれる
- 探索と活用のバランスが自動調整される
という効果が得られます。
重要なのは、
探索が「行動選択ルール」ではなく「ネットワーク構造」に組み込まれている
点です。
いつ使う?(得意・不得意)
得意なケース
- 強化学習(特にDQN系)
- ε の調整が難しい問題
- 長期学習が必要な環境
注意点
- 実装がやや複雑
- 常にε-greedyより優れるとは限らない
G検定ひっかけポイント
G検定では、他のDQN改良手法との混同が狙われます。
よくある混同
- ノイジーネットワーク=Q値の過大評価対策 → ✕
- ノイジーネットワーク=並列学習 → ✕
正誤を切る判断基準
- ε-greedyの問題を解消? → ノイジーネットワーク
- 探索をネットワーク内部で実現? → ノイジーネットワーク
- Q値の過大評価抑制? → ダブルDQN
まとめ(試験直前用)
- ノイジーネットワークは探索手法
- ε-greedyの欠点を解消
- εを手動で設定しない
- ネットワークにノイズを加える
- G検定では「探索方法」で即判断
🔗 関連記事
🏠 G検トップに戻る