DQNとPolicy Gradientの違い【強化学習体系図・G検定対策】 | AI・データサイエンス・IT学習ノート

DQNとPolicy Gradientの違いは関連概念を切り分けるための考え方です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk

G検定トップ＞ DQNとPolicy Gradientの違い【強化学習体系図・G検定対策】

まず結論

DQN は「価値（Q値）を学習して行動を選ぶ」手法
Policy Gradient は「行動方針（方策）そのものを直接学習する」手法
G検定では「Q値か？方策か？」で即切り分ける

直感的な説明

強化学習の考え方は大きく2つある。

DQN系：
- 「この行動はどれくらい得か？」を全部計算して
- 一番よさそうな行動を選ぶ
Policy Gradient系：
- 「この状況では、この行動を取りやすくしよう」と
- 行動の出やすさ（確率）を直接調整する

イメージ：

DQN：点数表（Q値）を見て決める
Policy Gradient：クセ・傾向（方策）を育てる

定義・仕組み

DQN（Deep Q-Network）

ベース：Q学習（価値ベース手法）
学習対象：
- Q値（状態 × 行動）
特徴：
- Experience Replay
- Target Network
行動選択：
- Q値が最大の行動

Policy Gradient

ベース：方策勾配法（ポリシー勾配法）
学習対象：
- 方策（Policy）そのもの
特徴：
- 行動を確率的に選択
- 勾配で方策を更新
行動選択：
- 方策が出す確率に従う

いつ使う？（得意・不得意）

DQN

得意：
- 行動が離散的
- ゲームAI（Atariなど）
不得意：
- 連続行動空間

Policy Gradient

得意：
- 連続行動空間
- ロボット制御
不得意：
- 分散が大きく学習が不安定になりやすい

G検定ひっかけポイント

ひっかけ①：強化学習＝DQN

❌ 強化学習はDQNだけ
✅ DQNは価値ベースの一種

ひっかけ②：経験再生は必須？

❌ 強化学習なら必ず経験再生
✅ 経験再生はDQN系の特徴

選択肢の判断基準

「Q値を学習」→ DQN
「経験再生（Experience Replay）」→ DQN
「方策を直接学習」→ Policy Gradient
「行動を確率的に選択」→ Policy Gradient

まとめ（試験直前用）

DQN＝価値ベース（Q値）
Policy Gradient＝方策ベース
離散行動→DQN
連続行動→Policy Gradient
迷ったら「QかPolicyか」で切る

🔗 関連記事

🏠 G検トップに戻る