gk reinforcement_learning
G検定トップ
> REINFORCEとは?(方策勾配法)G検定対策
まず結論
- REINFORCEとは、価値関数を使わずに、方策(ポリシー)そのものを勾配で最適化する強化学習アルゴリズムです。
- G検定では「価値関数を最適化するか/方策を直接最適化するか」が問われます。
直感的な説明
- REINFORCEは「行動してみて、良かった行動は起こりやすく、悪かった行動は起こりにくくする」学習方法です。
-
どの行動が良かったかを、
- 価値関数で評価するのではなく
- 実際にもらった報酬を使って 直接ポリシーを調整します。
- つまり「反省して行動のクセを直す」イメージです。
定義・仕組み
- REINFORCEは方策勾配法(Policy Gradient Method)の代表例です。
- 方策 ( \pi(a|s; \theta) ) のパラメータ (\theta) を、 報酬の期待値が大きくなる方向に更新します。
-
重要な点:
- 価値関数(Value Function)を使わない
- モンテカルロ法で報酬を推定
いつ使う?(得意・不得意)
得意な点
- 行動が確率的な問題に向いている
- 実装がシンプル
不得意・注意点
- 分散が大きく、学習が不安定
- サンプル効率が悪い
- 実務では改良版(Actor-Criticなど)が使われる
G検定ひっかけポイント
-
最大のひっかけ
- 「REINFORCEは価値関数を最適化する」→ ❌
-
正しい理解
- 価値関数を最適化する → Q学習 / DQN
- 方策を直接最適化する → REINFORCE
-
よくある混同
- 方策勾配法 = Actor-Critic(※REINFORCEはその原型)
-
選択肢で
- 「確率的ポリシー勾配法」→ ⭕
- 「価値関数を用いずに学習」→ ⭕
まとめ(試験直前用)
- REINFORCEは方策勾配法
- 価値関数を使わない
- ポリシーを直接更新
- 「価値関数を最適化する」は誤り
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る