Skip to the content.

G検定トップ > UCB方策(Upper-Confidence Bound)とは?【G検定対策】

まず結論

  • UCB方策(Upper-Confidence Bound)とは、選択肢の「平均報酬」と「不確実性(信頼区間)」を組み合わせて評価し、上限値が最大となる行動を選ぶ探索方策である。
  • G検定では「試行回数が少ないものを必ず選ぶか?」「何を最大化しているか?」が問われる。

直感的な説明

  • 「いままでの成績は普通だけど、まだ試していないから化けるかもしれない」選択肢を、少し優遇して試す考え方。
  • 確実に良さそうな選択肢(活用)と、未知で伸び代のある選択肢(探索)のバランスを取る。

定義・仕組み

  • 各選択肢に対して次のような評価値を計算する:

    • 平均報酬
    • 不確実性(試行回数が少ないほど大きい)
  • 平均報酬 + 信頼区間の上限(UCB) が最大のものを選択する。
  • 試行回数が増えると不確実性は小さくなり、自然に活用寄りになる。

いつ使う?(得意・不得意)

得意

  • 多腕バンディット問題
  • 探索と活用のバランスが重要な逐次意思決定

不得意・注意点

  • 報酬分布が急激に変化する環境
  • 設計次第で探索が強すぎる/弱すぎる場合がある

G検定ひっかけポイント

  • 「常に試行回数が最も少ない選択肢を選ぶ」→ ✕
  • 「平均報酬だけで選ぶ」→ ✕
  • UCBは“信頼区間の上限”を最大化するのが判断基準
  • ε-greedyとの違いを混同しやすい

まとめ(試験直前用)

  • UCBは平均報酬+不確実性で評価
  • 信頼区間の上限が最大の行動を選択
  • 探索と活用を数式的に両立
  • 試行回数が少ないだけでは選ばれない
  • バンディット問題の代表的手法

🔗 関連記事


🏠 G検トップに戻る