UCB方策（Upper Confidence Bound）とは？【G検定対策】 | AI・データサイエンス・IT学習ノート

最終更新日：2026年7月18日

gk reinforcement_learning

G検定トップ＞ UCB方策（Upper Confidence Bound）とは？【G検定対策】

まず結論

UCB方策（Upper Confidence Bound）とは、各行動の平均報酬と、まだ十分に試していないことによる不確実性を組み合わせて評価する手法です。
評価値の上限が最も大きい行動を選ぶことで、活用と探索を決められた規則で両立します。
G検定では、ランダムに探索するε-greedyとの違いを判断できることが重要です。

直感的な説明

レストランを選ぶ場面で考えます。

何度も行って高評価だった店：実績がある
まだ1回しか行っていない店：本当はもっと良い可能性がある

UCBは、実績だけでなく、

まだ試行回数が少ないため、評価が確定していない

という点にも加点します。

つまり、

平均報酬が高い行動を選ぶ：活用
情報が少ない行動も試す：探索

を同じ評価式の中で扱います。

定義・仕組み

UCBでは、各行動に対して次の2要素を足した評価値を考えます。

平均報酬
- これまで選んだ結果、平均してどれくらい報酬を得られたか
探索ボーナス
- 試行回数が少なく、推定結果の不確実性が大きいほど加点される値

イメージは次のとおりです。

UCBの評価値＝平均報酬＋不確実性を表す探索ボーナス

試行回数が少ない行動は探索ボーナスが大きくなります。一方、何度も試した行動は不確実性が小さくなり、評価が平均報酬中心になります。

このため、学習初期は幅広く探索し、情報が集まるにつれて自然に良い行動を活用するようになります。

多腕バンディット問題との関係

UCBは、代表的な多腕バンディット問題の解法です。

多腕バンディットでは、

行動を選ぶ
その場で報酬を受け取る
将来の状態遷移は基本的に扱わない

という設定を考えます。

したがって、状態遷移を含む一般的な強化学習問題よりも単純な枠組みです。

いつ使う？（得意・不得意）

得意

多腕バンディット問題
広告や推薦候補の選択
複数案を順番に試しながら良い案を見つける場面
探索の根拠を明確にしたい場合

不得意・注意点

報酬分布が時間とともに大きく変化する環境
状態遷移や長期的な報酬を扱う複雑な問題
不確実性の計算方法が前提に合わない場合

通常のUCBは、各行動の報酬分布が大きく変わらないことを前提に考えます。環境が変化する場合は、最近のデータを重視するなどの工夫が必要です。

G検定ひっかけポイント

UCBとε-greedyの違い

手法	探索方法	判断基準
UCB	不確実性を評価値に加える	平均報酬＋探索ボーナス
ε-greedy	一定確率でランダムに選ぶ	εの確率で探索
greedy	常に推定報酬が最大の行動	探索しない

よくある誤解

❌ 常に試行回数が最も少ない行動を選ぶ
- 平均報酬も含めて評価するため、試行回数だけでは決まりません。
❌ ランダムに探索する手法である
- 代表的なUCBは、計算した上限値に基づいて行動を選びます。
❌ 平均報酬だけを最大化する
- 不確実性を表す探索ボーナスも加えます。
❌ 状態価値関数を学習するDQNの一種である
- UCBは主にバンディット問題の行動選択手法です。

選択肢を切る判断基準

「平均報酬＋不確実性」→ UCB
「信頼区間の上限」→ UCB
「一定確率でランダム探索」→ ε-greedy
「常に現在の最良行動」→ greedy

まとめ（試験直前用）

UCBは平均報酬と不確実性を組み合わせる
試行回数が少ない行動には探索ボーナスがつく
学習が進むと不確実性が小さくなり、活用寄りになる
ε-greedyのようにランダム探索する手法ではない
「信頼区間の上限を最大化」ならUCB

🔗 関連記事

🏠 G検トップに戻る