gk neural_network
G検定トップ
> Actor–Critic とは?(オン/オフポリシーの位置づけ)【G検定対策】
まず結論
- Actor–Critic は、「行動を決める Actor」と「評価する Critic」を分けて学習する強化学習手法。
- G検定では 「オンポリシーにもオフポリシーにもなり得る」点が重要。
直感的な説明
- Actor–Critic は「プレイヤーとコーチの分業」。
- Actor(行動役):
- 次に何をするか決める
- Critic(評価役):
- その行動がどれくらい良かったか評価
- イメージ:
- Actor:プレイする人
- Critic:横でアドバイスするコーチ
- DQN と違い、
行動決定と評価を分けて考えるのがポイント。
定義・仕組み
- Actor–Critic の基本構造:
- Actor:方策(policy)を学習
- Critic:価値関数(V値やQ値)を学習
- 学習の流れ:
- Actor が行動を選択
- 環境から報酬を受け取る
- Critic が「良さ」を評価
- その評価を使って Actor を更新
- 特徴:
- Policy Gradient の不安定さを改善
- DQN のような価値関数学習も活用
いつ使う?(得意・不得意)
得意
- 連続行動空間
- 方策を直接学習したい場合
- 安定性と効率のバランスを取りたいとき
不得意・注意
- 実装がやや複雑
- Critic の精度に依存しやすい
オン/オフポリシーの位置づけ
- Actor–Critic は枠組みであって、学習方式は派生アルゴリズム次第。
- 代表例:
- A2C / A3C:オンポリシー
- DDPG / SAC:オフポリシー
- 判断基準:
- Replay を使う → オフポリシー
- 今の方策だけ → オンポリシー
G検定ひっかけポイント
- 「Actor–Critic = オンポリシー」と決めつけさせる罠
- よくある誤解:
- ❌ Actor–Critic は 1 種類のアルゴリズム
- ❌ 必ずオンポリシー
- 正しい理解:
- Actor–Critic は 設計思想
- オン/オフは派生次第
- 即断キーワード:
- 「Actor と Critic」→ Actor–Critic
- 「Replay」→ オフポリシー型 Actor–Critic
まとめ(試験直前用)
- Actor–Critic = 行動役と評価役を分離
- Actor:方策、Critic:価値
- 安定性と効率を両立
- オン/オフはアルゴリズム次第
- A2C/A3C=オン、DDPG/SAC=オフ
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る