gk reinforcement_learning neural_network
G検定トップ
> Q学習と方策勾配法の違いとは?【G検定超重要対比】
まず結論
Q学習は「行動価値関数」を学習する手法、
方策勾配法は「方策(行動ルール)」を直接学習する手法である。
G検定では「何を直接更新しているか」を見抜けるかが最大のポイント。
直感的な説明
まず考え方がまったく違う。
- Q学習
→「この行動、どれくらい得?」を数値で覚える - 方策勾配法
→「この状況では、どの行動をどれくらいの確率で選ぶ?」を覚える
つまり、
- Q学習=評価してから選ぶ
- 方策勾配=選び方そのものを学ぶ
ここを押さえると、問題文が一気に読みやすくなる。
定義・仕組み
Q学習(Q-learning)
- 行動価値関数 Q(s, a) を学習
- 「状態sで行動aを取ると、どれだけ良いか」を数値で表す
- 最大のQ値を持つ行動を選択
👉 価値ベース手法(Value-based method)
方策勾配法(Policy Gradient)
-
方策 **π(a s)** を直接最適化 - 行動を確率的に選択
- 勾配を使って「良い行動の確率を上げる」
👉 方策ベース手法(Policy-based method)
PPO・A2C・A3C はここに属する。
いつ使う?(得意・不得意)
Q学習が得意
- 行動が離散的
- 状態・行動空間が小さい
- シンプルな問題
Q学習が苦手
- 連続行動空間
- 状態が複雑
- 不安定になりやすい
方策勾配法が得意
- 連続行動空間
- ロボット制御などの実問題
- 安定性が重要な場合
方策勾配法の注意点
- 分散が大きくなりやすい
- 安定化の工夫(PPOなど)が必要
G検定ひっかけポイント
ここは頻出の罠ゾーン。
よくある誤解
- ❌ PPOはQ学習の改良版
- ❌ 方策勾配法は価値関数を使わない
- ❌ Q学習も方策を直接更新する
すべて 不正解。
正しい判断基準(超重要)
- 「Q値を更新する」
→ Q学習 - 「方策を直接最適化する」
→ 方策勾配法 - 「更新をクリッピングして安定化」
→ PPO - 「行動価値関数を直接更新」
→ Q学習系
G検定では
“何を直接学習しているか”だけを見る。
まとめ(試験直前用)
- Q学習=行動価値関数を学習
- 方策勾配法=方策を直接学習
- PPOは方策勾配法の一種
- Q学習とPPOは別系統
- 「直接更新している対象」で切る
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る