報酬成形（Reward Shaping）とは？【G検定対策】 | AI・データサイエンス・IT学習ノート

報酬成形（Reward Shaping）はを理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk reinforcement_learning

G検定トップ＞報酬成形（Reward Shaping）とは？【G検定対策】

まず結論

報酬成形（Reward Shaping）とは、強化学習において学習を加速させるために、本来の報酬に加えて補助的な報酬を設計・追加する手法である。
G検定では「報酬を与えない？」「自動生成？」「学習を遅くする？」といった誤った説明を切れるかが問われる。

直感的な説明

ゴールに到達したときだけ点数がもらえるゲームでは難しすぎるため、「ゴールに近づいたら少し点をあげる」ようにするイメージ。
正解までの道のりが長いタスクで、途中経過にヒントを与える役割を持つ。

定義・仕組み

本来の環境報酬に対し、人が設計した補助報酬を追加する。
エージェントは、
- 最終報酬
- 補助報酬の合計を最大化するように学習する。
適切に設計すれば、学習速度が大きく向上する。

いつ使う？（得意・不得意）

得意

最終報酬が希薄（スパース）な問題
ゴールまでのステップが長いタスク

不得意・注意点

設計を誤ると、本来の目的とズレた行動を学習する
報酬ハッキング（Reward Hacking）が起きやすい

G検定ひっかけポイント

「報酬を与えない学習手法」→ ✕
「報酬関数を自動生成する」→ ✕（それは逆強化学習）
「学習を遅らせる」→ ✕
キーワードは「補助的な報酬」「学習を早める」

まとめ（試験直前用）

報酬成形＝補助報酬を追加
目的は学習の加速
スパース報酬問題で有効
設計ミスに注意
G検定では定義の切り分けが重要

🔗 関連記事

🏠 G検トップに戻る