gk reinforcement_learning
G検定トップ
> パンディットアルゴリズム(Multi-Armed Bandit)とは?【探索と活用|G検定対策】
まず結論
- パンディットアルゴリズム(Multi-Armed Bandit)とは、各選択肢に確率的な報酬が与えられる状況で、探索と活用のバランスを取りながら最適な行動を学習する強化学習アルゴリズムである。
- G検定では「状態遷移がない強化学習」として問われる。
直感的な説明
パンディット問題は、次のようなたとえで説明されます。
- 複数のスロットマシン(腕:arm)がある
- どれも当たりやすさ(報酬確率)が違う
- 何度も引く中で、一番得な台を見つけたい
このときの悩みが、
- 探索(exploration):まだ試していない台を引く
- 活用(exploitation):当たりやすい台を引き続ける
👉 この2つのバランスを取るのがパンディットアルゴリズム。
定義・仕組み
定義
- 各行動(腕)に対して、確率的な報酬が与えられる問題設定
- 毎回1つの行動を選び、報酬を観測する
重要な特徴
- 状態(state)がない
- 状態遷移がない
- 行動の結果は、次の選択肢を変えない
👉 これは通常の強化学習(MDP)との最大の違い。
代表的な手法
- ε-greedy
- UCB(Upper Confidence Bound)
- Thompson Sampling
いつ使う?(得意・不得意)
得意な場面
- Web広告の表示選択
- レコメンド(記事・商品)
- A/Bテストの自動化
- 医療治療方針の選択
苦手な場面
- 状態が時間とともに変化する問題
- 長期的な戦略が必要な問題
- ゲームやロボット制御
G検定ひっかけポイント
ここが超重要です。
よくある誤解
- ❌「系列予測アルゴリズムである」
- ❌「回帰モデルである」
- ❌「クラスタリング手法である」
- ❌「MDPを前提とした強化学習である」
正しい判断基準
- 探索と活用 → パンディット
- 状態遷移あり → 通常の強化学習(MDP)
- 逐次選択 → パンディット
- クラスタ代表抽出 → 教師なし学習
問題文に
「各選択肢」「確率的報酬」「探索と活用」
とあれば パンディットアルゴリズム。
強化学習(MDP)との違い
- パンディット:状態なし・即時報酬
- MDP:状態あり・将来報酬も考慮
👉 パンディットは「強化学習の超簡略版」。
まとめ(試験直前用)
- パンディット=腕を選ぶ問題
- 探索と活用のバランス
- 状態遷移はない
- 即時報酬のみ
- Web推薦で頻出
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る