gk reinforcement_learning
G検定トップ
> REINFORCEとActor-Criticの違いとは?G検定対策
まず結論
- REINFORCEは価値関数を使わず方策(ポリシー)を直接勾配で更新する手法、Actor-Criticは方策(Actor)と価値関数(Critic)を併用して学習を安定させる手法です。
- G検定では「価値関数を使うかどうか」「分散を下げる工夫があるか」が判断ポイントになります。
直感的な説明
- REINFORCE:行動して結果を見て、良ければクセを強め、悪ければ弱める“一発反省型”。
- Actor-Critic:行動(Actor)に対して、その良し悪しを評価役(Critic)がすぐ教える“コーチ付き”。
- コーチがいる分、Actor-Criticの方が学習が安定します。
定義・仕組み
-
REINFORCE(方策勾配法)
-
方策 (\pi(a s;\theta)) を直接最適化 - 価値関数を使わない(モンテカルロ報酬)
- 分散が大きくなりやすい
-
-
Actor-Critic
- Actor:方策を更新
- Critic:価値関数(VやQ)で評価
- Advantage 等を使い分散を低減
いつ使う?(得意・不得意)
REINFORCE
- 得意:実装がシンプル、理論が分かりやすい
- 不得意:学習が不安定、サンプル効率が悪い
Actor-Critic
- 得意:学習が安定、実用向き
- 不得意:構成が複雑
G検定ひっかけポイント
-
最大のひっかけ
- 「REINFORCEは価値関数を最適化する」→ ❌
-
正しい切り分け
- 価値関数なしで方策更新 → REINFORCE
- 価値関数を使って方策更新 → Actor-Critic
-
選択肢で
- 「分散を下げるためCriticを用いる」→ Actor-Critic
- 「モンテカルロで直接更新」→ REINFORCE
まとめ(試験直前用)
- REINFORCE:方策のみ、価値関数なし
- Actor-Critic:Actor+Criticの二役
- 安定性重視ならActor-Critic
- 「価値関数を使うか」が最短判断軸
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る