PPO（Proximal Policy Optimization）とは？【G検定対策】

G検定トップ＞ PPO（Proximal Policy Optimization）とは？【G検定対策】

まず結論

PPO（Proximal Policy Optimization）とは、
方策（Policy）の更新量を制限することで、学習を安定させる強化学習アルゴリズムである。
G検定では「なぜ学習が安定するのか」「Q学習との違い」がよく問われる。

PPOは一言でいうと、
「一気に方針を変えすぎない強化学習」。

強化学習では、

👉 かえって学習が壊れることがある。

PPOは
「前の方策から、ちょっとだけ更新しよう」
とブレーキをかけることで、
安定して学習を進める仕組み。

PPO（Proximal Policy Optimization）は、
方策勾配法に属する強化学習アルゴリズム。

特徴は次の2点。

これにより、

G検定では数式は不要で、
「更新を制限して安定化」が理解できていればOK。

👉 PPO＝安定性重視の方策勾配法。

ここが一番重要。

👉 すべて 不正解。

G検定では
「方策」か「行動価値関数」か を必ず見る。