Skip to the content.

G検定トップ > DQNとPolicy Gradientの違い【強化学習体系図・G検定対策】

まず結論

  • DQN は「価値(Q値)を学習して行動を選ぶ」手法
  • Policy Gradient は「行動方針(方策)そのものを直接学習する」手法
  • G検定では「Q値か?方策か?」で即切り分ける

直感的な説明

強化学習の考え方は大きく2つある。

  • DQN系

    • 「この行動はどれくらい得か?」を全部計算して
    • 一番よさそうな行動を選ぶ
  • Policy Gradient系

    • 「この状況では、この行動を取りやすくしよう」と
    • 行動の出やすさ(確率)を直接調整する

イメージ:

  • DQN:点数表(Q値)を見て決める
  • Policy Gradient:クセ・傾向(方策)を育てる

定義・仕組み

DQN(Deep Q-Network)

  • ベース:Q学習(価値ベース手法)
  • 学習対象:

    • Q値(状態 × 行動)
  • 特徴:

    • Experience Replay
    • Target Network
  • 行動選択:

    • Q値が最大の行動

Policy Gradient

  • ベース:方策勾配法(ポリシー勾配法)
  • 学習対象:

    • 方策(Policy)そのもの
  • 特徴:

    • 行動を確率的に選択
    • 勾配で方策を更新
  • 行動選択:

    • 方策が出す確率に従う

いつ使う?(得意・不得意)

DQN

  • 得意

    • 行動が離散的
    • ゲームAI(Atariなど)
  • 不得意

    • 連続行動空間

Policy Gradient

  • 得意

    • 連続行動空間
    • ロボット制御
  • 不得意

    • 分散が大きく学習が不安定になりやすい

G検定ひっかけポイント

ひっかけ①:強化学習=DQN

  • ❌ 強化学習はDQNだけ
  • DQNは価値ベースの一種

ひっかけ②:経験再生は必須?

  • ❌ 強化学習なら必ず経験再生
  • 経験再生はDQN系の特徴

選択肢の判断基準

  • Q値を学習」→ DQN
  • 経験再生(Experience Replay)」→ DQN
  • 方策を直接学習」→ Policy Gradient
  • 行動を確率的に選択」→ Policy Gradient

まとめ(試験直前用)

  • DQN=価値ベース(Q値)
  • Policy Gradient=方策ベース
  • 離散行動→DQN
  • 連続行動→Policy Gradient
  • 迷ったら「QかPolicyか」で切る

🔗 関連記事


🏠 G検トップに戻る