ε-greedy方策（epsilon-greedy policy）とは？【G検定対策】 | AI・データサイエンス・IT学習ノート

ε-greedy方策（epsilon-greedy policy）はを理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk reinforcement_learning policy

G検定トップ＞ ε-greedy方策（epsilon-greedy policy）とは？【G検定対策】

まず結論

ε-greedy方策とは、確率 ε でランダム行動（探索）を行い、確率 1−ε で最も良い行動（活用）を選ぶ方策である。
G検定では「探索と活用のバランス」や「UCBなど他の方策との違い」がよく問われる。

直感的な説明

ε-greedy方策は、
「たまに冒険するけど、基本は一番よさそうな行動を選ぶ」
という考え方です。

いつも同じ行動だけを選ぶ → 新しい良い行動を見逃す
いつもランダム → いつまでも賢くならない

そこで、

ε の確率でランダムに行動（探索）
1−ε の確率で今まで一番良かった行動を選ぶ（活用）

というシンプルな仕組みで、学習を安定させます。

定義・仕組み

ε-greedy方策（epsilon-greedy policy）は、
強化学習における 行動選択ルール（方策） の一つです。

ε（イプシロン）：
- ランダム行動を選ぶ確率
行動選択の流れ：
1. 確率 ε → ランダムな行動を選択（探索）
2. 確率 1−ε → 価値が最大の行動を選択（活用）

※ G検定では
「ε は固定の場合もあれば、学習が進むにつれて小さくする場合もある」
という点も押さえておくと安心です。

いつ使う？（得意・不得意）

得意な場面

Q学習などの基本的な強化学習
シンプルに探索と活用を両立したいとき
実装を簡単にしたい場合

苦手・注意点

完全にランダムな探索なので効率が悪いことがある
行動回数が少ない行動を優先する仕組みはない
UCBのような「不確実性を考慮した探索」はできない

G検定ひっかけポイント

ここが 今回の模擬試験そのもの です。

ひっかけ①

「方策を事前に決め、その通りに行動する」
❌ 不正解

→ ε-greedyは
学習結果（価値）に応じて行動を変える方策

ひっかけ②

「選択回数が少ない行動を優先する」
❌ 不正解

→ これは UCB（Upper Confidence Bound）方策 の説明

ひっかけ③

「初めて行う行動を重視して選択する」
❌ 不正解

→ ε-greedyは
あくまでランダム or 最大価値 の二択

正解の判断基準

選択肢に

「ランダムに行動する」
「学習結果に基づいて行動する」

この 両方が含まれていたら ε-greedy。

まとめ（試験直前用）

ε-greedy方策は「探索」と「活用」を確率で切り替える
ε：ランダム行動、1−ε：最良行動
選択回数や不確実性は考慮しない
UCBとの違いは「探索の仕方」

👉 「ランダム＋最良」なら ε-greedy

🔗 関連記事

🏠 G検トップに戻る