gk reinforcement_learning cheatsheet
G検定トップ
> 強化学習の代表的手法まとめ(DQN・Policy Gradient・Actor-Critic)【G検定対策】
まず結論
- DQN:行動価値(Q値)を学習する手法
- Policy Gradient:方策(行動確率)を直接学習する手法
- Actor-Critic:価値と方策を同時に学習する手法
- G検定では「何を学習しているか」で切るのが最短ルート。
直感的な説明
強化学習は、学び方が3パターンあります。
- DQN:
👉 「どの行動が得か?」を数値で覚える - Policy Gradient:
👉 「どんな行動を取りやすくするか?」を直接覚える - Actor-Critic:
👉 「両方いいとこ取り」
この違いを押さえるだけで、選択肢はかなり削れます。
定義・仕組み
DQN(Deep Q-Network)
- 学習対象:行動価値関数 Q(s, a)
- ニューラルネットワークで Q値を近似
- 行動は「Q値が最大のもの」を選ぶ
特徴
- 離散行動向き
- 実装が比較的わかりやすい
- 改良版:Double DQN / Dueling DQN など
Policy Gradient
- 学習対象:方策(ポリシー)そのもの
- 行動の確率分布を直接更新
- 「良い行動をより選びやすく」する
特徴
- 連続行動に強い
- 学習が不安定になりやすい
- Q値を使わない
Actor-Critic
- Actor:方策を学習
- Critic:価値関数を学習
- Criticの評価を使ってActorを改善
特徴
- Policy Gradientより安定
- DQNとPolicy Gradientの中間的存在
- 実用でよく使われる構成
いつ使う?(得意・不得意)
DQN
- 得意:離散行動、シンプルな環境
- 不得意:連続行動、高次元制御
Policy Gradient
- 得意:連続行動、複雑な制御
- 不得意:学習の安定性
Actor-Critic
- 得意:安定性と柔軟性の両立
- 不得意:構造がやや複雑
G検定ひっかけポイント
ここは 用語の言い換えに注意。
よくあるひっかけ
- ❌ DQNは方策を直接学習する
- ❌ Policy GradientはQ値を学習する
- ❌ Actor-Criticはどちらか一方だけ
正しい切り方
- Q値 → DQN
- 方策を直接更新 → Policy Gradient
- Actor / Critic の2つ → Actor-Critic
キーワード対応
| 選択肢の表現 | 手法 | |—|—| | 行動価値関数 | DQN | | 方策を直接学習 | Policy Gradient | | 価値で方策を改善 | Actor-Critic |
まとめ(試験直前用)
- DQN:Q値を学習
- Policy Gradient:方策を直接学習
- Actor-Critic:価値+方策
- 連続行動 → DQNは不利
- 迷ったら「何を学習しているか」を見る
🔗 関連記事
- NISC・IPA・JPCERT/CC・CSIRTの違いまとめ【一発で切れるチートシート】
- データ・AI利活用における留意事項とは?【DS検定リテラシー】
- データを読む・説明する・扱うとは?データリテラシー実践ガイド【DS検定】
- 数理・アルゴリズム・データ活用基礎(オプション)【DS検定対応】
- ④ Assistant Data Scientist(見習い)に求められるビジネス力
🏠 G検トップに戻る