gk neural_network
G検定トップ
> オンポリシー vs オフポリシーとは?(DQN系の位置づけ)【G検定対策】
まず結論
- オンポリシーは「今使っている方策で集めた経験だけで学習する」方式。
- オフポリシーは「別の方策で集めた過去の経験も使って学習する」方式。
- DQN 系はオフポリシー学習である点が、G検定の重要ポイント。
直感的な説明
- オンポリシー:
- 今のやり方で練習
- 昨日の練習メモは捨てる
- オフポリシー:
- 今のやり方で練習
- 過去のノートも引っ張り出して復習
- イメージ:
- オンポリシー:実践重視
- オフポリシー:復習重視
定義・仕組み
オンポリシー(On-policy)
- 学習対象:
- 現在の方策(policy)
- 使用する経験:
- その方策で集めたデータのみ
- 特徴:
- 学習は安定しやすい
- データ効率は低い
- 代表例:
- Policy Gradient
- REINFORCE
- A2C / A3C(基本はオンポリシー)
オフポリシー(Off-policy)
- 学習対象:
- 目標方策
- 使用する経験:
- 過去の方策や別方策で集めたデータも利用
- 特徴:
- データ効率が高い
- 学習が不安定になりやすい
- 代表例:
- DQN
- Double DQN
- Prioritized Experience Replay
- APE-X
いつ使う?(得意・不得意)
オンポリシーが向いている
- 安定性を重視したい
- 方策を直接学習したい場合
- 分布ずれを避けたいとき
オフポリシーが向いている
- 経験を再利用したい
- 大量データ・分散学習
- サンプル効率を上げたい場合
G検定ひっかけポイント
- Experience Replay が出たらオフポリシー
- よくある誤解:
- ❌ DQN はオンポリシー
- ❌ オフポリシーは古い手法
- 正しい判断基準:
- 「Replay」「過去の経験」→ オフポリシー
- 「今の方策だけ」→ オンポリシー
- 選択肢の即断:
- DQN / APE-X → オフポリシー
- Policy Gradient → オンポリシー
まとめ(試験直前用)
- オンポリシー:今の方策の経験だけで学習
- オフポリシー:過去・別方策の経験も使う
- DQN 系は オフポリシー
- Replay がキーワード
- 「経験を使い回すか?」で判断
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る