gk reinforcement_learning
G検定トップ
> UCB方策(Upper-Confidence Bound)とは?【G検定対策】
まず結論
- UCB方策(Upper-Confidence Bound)とは、選択肢の「平均報酬」と「不確実性(信頼区間)」を組み合わせて評価し、上限値が最大となる行動を選ぶ探索方策である。
- G検定では「試行回数が少ないものを必ず選ぶか?」「何を最大化しているか?」が問われる。
直感的な説明
- 「いままでの成績は普通だけど、まだ試していないから化けるかもしれない」選択肢を、少し優遇して試す考え方。
- 確実に良さそうな選択肢(活用)と、未知で伸び代のある選択肢(探索)のバランスを取る。
定義・仕組み
-
各選択肢に対して次のような評価値を計算する:
- 平均報酬
- 不確実性(試行回数が少ないほど大きい)
- 平均報酬 + 信頼区間の上限(UCB) が最大のものを選択する。
- 試行回数が増えると不確実性は小さくなり、自然に活用寄りになる。
いつ使う?(得意・不得意)
得意
- 多腕バンディット問題
- 探索と活用のバランスが重要な逐次意思決定
不得意・注意点
- 報酬分布が急激に変化する環境
- 設計次第で探索が強すぎる/弱すぎる場合がある
G検定ひっかけポイント
- 「常に試行回数が最も少ない選択肢を選ぶ」→ ✕
- 「平均報酬だけで選ぶ」→ ✕
- UCBは“信頼区間の上限”を最大化するのが判断基準
- ε-greedyとの違いを混同しやすい
まとめ(試験直前用)
- UCBは平均報酬+不確実性で評価
- 信頼区間の上限が最大の行動を選択
- 探索と活用を数式的に両立
- 試行回数が少ないだけでは選ばれない
- バンディット問題の代表的手法
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る