gk reinforcement_learning
G検定トップ
> 報酬成形(Reward Shaping)とは?【G検定対策】
まず結論
- 報酬成形(Reward Shaping)とは、強化学習において学習を加速させるために、本来の報酬に加えて補助的な報酬を設計・追加する手法である。
- G検定では「報酬を与えない?」「自動生成?」「学習を遅くする?」といった誤った説明を切れるかが問われる。
直感的な説明
- ゴールに到達したときだけ点数がもらえるゲームでは難しすぎるため、 「ゴールに近づいたら少し点をあげる」ようにするイメージ。
- 正解までの道のりが長いタスクで、途中経過にヒントを与える役割を持つ。
定義・仕組み
- 本来の環境報酬に対し、人が設計した補助報酬を追加する。
-
エージェントは、
- 最終報酬
- 補助報酬 の合計を最大化するように学習する。
- 適切に設計すれば、学習速度が大きく向上する。
いつ使う?(得意・不得意)
得意
- 最終報酬が希薄(スパース)な問題
- ゴールまでのステップが長いタスク
不得意・注意点
- 設計を誤ると、本来の目的とズレた行動を学習する
- 報酬ハッキング(Reward Hacking)が起きやすい
G検定ひっかけポイント
- 「報酬を与えない学習手法」→ ✕
- 「報酬関数を自動生成する」→ ✕(それは逆強化学習)
- 「学習を遅らせる」→ ✕
- キーワードは「補助的な報酬」「学習を早める」
まとめ(試験直前用)
- 報酬成形=補助報酬を追加
- 目的は学習の加速
- スパース報酬問題で有効
- 設計ミスに注意
- G検定では定義の切り分けが重要
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る