パンディットアルゴリズム（Multi-Armed Bandit）とは？【探索と活用｜G検定対策】 | AI・データサイエンス・IT学習ノート

パンディットアルゴリズム（Multi-Armed Bandit）はを理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk reinforcement_learning

G検定トップ＞パンディットアルゴリズム（Multi-Armed Bandit）とは？【探索と活用｜G検定対策】

まず結論

パンディットアルゴリズム（Multi-Armed Bandit）とは、各選択肢に確率的な報酬が与えられる状況で、探索と活用のバランスを取りながら最適な行動を学習する強化学習アルゴリズムである。
G検定では「状態遷移がない強化学習」として問われる。

直感的な説明

パンディット問題は、次のようなたとえで説明されます。

複数のスロットマシン（腕：arm）がある
どれも当たりやすさ（報酬確率）が違う
何度も引く中で、一番得な台を見つけたい

このときの悩みが、

探索（exploration）：まだ試していない台を引く
活用（exploitation）：当たりやすい台を引き続ける

👉 この2つのバランスを取るのがパンディットアルゴリズム。

定義・仕組み

定義

各行動（腕）に対して、確率的な報酬が与えられる問題設定
毎回1つの行動を選び、報酬を観測する

重要な特徴

状態（state）がない
状態遷移がない
行動の結果は、次の選択肢を変えない

👉 これは通常の強化学習（MDP）との最大の違い。

代表的な手法

ε-greedy
UCB（Upper Confidence Bound）
Thompson Sampling

いつ使う？（得意・不得意）

得意な場面

Web広告の表示選択
レコメンド（記事・商品）
A/Bテストの自動化
医療治療方針の選択

苦手な場面

状態が時間とともに変化する問題
長期的な戦略が必要な問題
ゲームやロボット制御

G検定ひっかけポイント

ここが超重要です。

よくある誤解

❌「系列予測アルゴリズムである」
❌「回帰モデルである」
❌「クラスタリング手法である」
❌「MDPを前提とした強化学習である」

正しい判断基準

探索と活用 → パンディット
状態遷移あり → 通常の強化学習（MDP）
逐次選択 → パンディット
クラスタ代表抽出 → 教師なし学習

問題文に
「各選択肢」「確率的報酬」「探索と活用」
とあれば パンディットアルゴリズム。

強化学習（MDP）との違い

パンディット：状態なし・即時報酬
MDP：状態あり・将来報酬も考慮

👉 パンディットは「強化学習の超簡略版」。

まとめ（試験直前用）

パンディット＝腕を選ぶ問題
探索と活用のバランス
状態遷移はない
即時報酬のみ
Web推薦で頻出

🔗 関連記事

🏠 G検トップに戻る