オンポリシー vs オフポリシーとは？（DQN系の位置づけ）【G検定対策】 | AI・データサイエンス・IT学習ノート

オンポリシー vs オフポリシーは（DQN系の位置づけ）を理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk neural_network

G検定トップ＞オンポリシー vs オフポリシーとは？（DQN系の位置づけ）【G検定対策】

まず結論

オンポリシーは「今使っている方策で集めた経験だけで学習する」方式。
オフポリシーは「別の方策で集めた過去の経験も使って学習する」方式。
DQN 系はオフポリシー学習である点が、G検定の重要ポイント。

直感的な説明

オンポリシー：
- 今のやり方で練習
- 昨日の練習メモは捨てる
オフポリシー：
- 今のやり方で練習
- 過去のノートも引っ張り出して復習
イメージ：
- オンポリシー：実践重視
- オフポリシー：復習重視

定義・仕組み

オンポリシー（On-policy）

学習対象：
- 現在の方策（policy）
使用する経験：
- その方策で集めたデータのみ
特徴：
- 学習は安定しやすい
- データ効率は低い
代表例：
- Policy Gradient
- REINFORCE
- A2C / A3C（基本はオンポリシー）

オフポリシー（Off-policy）

学習対象：
- 目標方策
使用する経験：
- 過去の方策や別方策で集めたデータも利用
特徴：
- データ効率が高い
- 学習が不安定になりやすい
代表例：
- DQN
- Double DQN
- Prioritized Experience Replay
- APE-X

いつ使う？（得意・不得意）

オンポリシーが向いている

安定性を重視したい
方策を直接学習したい場合
分布ずれを避けたいとき

オフポリシーが向いている

経験を再利用したい
大量データ・分散学習
サンプル効率を上げたい場合

G検定ひっかけポイント

Experience Replay が出たらオフポリシー
よくある誤解：
- ❌ DQN はオンポリシー
- ❌ オフポリシーは古い手法
正しい判断基準：
- 「Replay」「過去の経験」→ オフポリシー
- 「今の方策だけ」→ オンポリシー
選択肢の即断：
- DQN / APE-X → オフポリシー
- Policy Gradient → オンポリシー

まとめ（試験直前用）

オンポリシー：今の方策の経験だけで学習
オフポリシー：過去・別方策の経験も使う
DQN 系は オフポリシー
Replay がキーワード
「経験を使い回すか？」で判断

🔗 関連記事

🏠 G検トップに戻る