gk reinforcement_learning
G検定トップ
> Q学習(オフポリシー強化学習)とは?G検定対策
まず結論
- Q学習(Q-learning)とは、実際に選択した行動とは無関係に「将来取りうる最適行動」を用いてQ値を更新するオフポリシー型の強化学習アルゴリズム。
- G検定では 「SARSAとの違い(オンポリシー vs オフポリシー)」 を正しく区別できるかが最重要ポイント。
直感的な説明
-
強化学習では、
- 実際に取った行動から学ぶ方法
- 「もし最善の行動を取ったら?」と仮定して学ぶ方法 があります。
- Q学習は、 👉 実際の行動は探索用、学習は常に理想的な最適行動を仮定して行う という考え方です。
- 人で言えば、 👉 多少失敗しても、常にベストな行動を基準に反省するタイプです。
定義・仕組み
-
Q学習では、次の更新式に基づいてQ値を更新します。
Q(s, a) ← Q(s, a) + α [ r + γ maxₐ Q(s’, a) − Q(s, a) ]
-
特徴:
- オフポリシー型
- 更新には「次状態での最大Q値」を使用
- 探索方策(ε-greedyなど)とは独立
いつ使う?(得意・不得意)
得意な場面
- 最適方策を重視したい問題
- 十分な探索が許される環境
苦手・注意点
- 危険な探索行動を取りやすい
- 実環境では不安定になることがある
G検定ひっかけポイント
-
よくある誤解:
- ❌ 「実際に選んだ行動で更新する」
- ❌ 「オンポリシー型である」
-
正しい理解:
- 最適行動に基づいて更新
- オフポリシー
-
判断基準:
- 「max Q(s’, a) を使う」→ Q学習
- 「次に選んだ行動を使う」→ SARSA
まとめ(試験直前用)
- Q学習=オフポリシー
- 最適行動で更新
- 実際の行動とは独立
- SARSAと対になる存在
- 判断軸は「更新に使う行動」
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る