gk reinforcement_learning
G検定トップ
> Rainbow(強化学習アルゴリズム)とは?【G検定対策】
まず結論
- Rainbowとは、DQNをベースに複数の改良手法を統合した、高性能なモデルフリー型の強化学習アルゴリズムである。
- G検定では「何を組み合わせたか」「モデルベースかどうか」「Q学習を使うか」が問われる。
直感的な説明
- DQNを「全部盛り」にして強化したのがRainbow。
- DQNの弱点(学習不安定・過大評価・探索不足など)を、複数の工夫でまとめて改善している。
定義・仕組み
-
Rainbowは次のDQN系改良手法を組み合わせたアルゴリズム:
- Double DQN:Q値の過大評価を抑制
- Prioritized Experience Replay:重要な経験を優先学習
- Dueling Network:状態価値と行動価値を分離
- Noisy Nets:探索性能を向上
- Distributional RL:報酬分布を学習
- Multi-step Learning:n-step報酬を利用
-
ベースは Q学習(DQN) であり、方策勾配法ではない。
いつ使う?(得意・不得意)
得意
- ゲーム環境(Atariなど)
- 離散行動空間での高性能制御
不得意・注意点
- 実装が複雑
- 連続行動空間にはそのまま使えない
G検定ひっかけポイント
- 「モデルベース強化学習」→ ✕
- 「方策勾配法のみを使用」→ ✕
- 「Q学習を使わない」→ ✕
- 「DQNの改良を組み合わせたアルゴリズム」が判断軸
まとめ(試験直前用)
- Rainbow=DQN改良の全部盛り
- Double DQN・Prioritized Replayなどを統合
- モデルフリー型・Q学習ベース
- 高性能だが構造は複雑
- G検定では“何を組み合わせたか”を問われる
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る