gk reinforcement_learning
G検定トップ
> 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
まず結論
- 割引率(γ)とは、将来の報酬の価値を現在価値としてどの程度割り引くかを決める係数である。
- G検定では「γが大きい/小さいと何を重視するか」が問われる。
直感的な説明
割引率は一言でいうと、
「今すぐもらえる報酬」と「将来もらえる報酬」をどう比べるか
です。
- γ が 小さい
→「今すぐ!」重視 - γ が 大きい(1に近い)
→「将来も大事」
人で例えると:
- γ が低い人:短期的なご褒美を優先
- γ が高い人:長期的な利益を考える
定義・仕組み
定義
割引率 γ(0 ≤ γ < 1)は、
将来の報酬を現在価値に変換するための係数。
報酬は次のように評価される:
- 今の報酬:そのまま
- 1ステップ後:γ × 報酬
- 2ステップ後:γ² × 報酬
つまり、 将来になるほど価値が小さくなる。
重要:
- γ は「将来報酬を高く評価する係数」ではない
- γ は「将来報酬を割り引く係数」
いつ使う?(得意・不得意)
γ が小さい場合
- 短期報酬を重視
- 目先の行動に強い
- 長期戦略が苦手
γ が大きい場合
- 長期報酬を重視
- 計画的な行動が可能
- 学習が不安定になることもある
G検定ひっかけポイント
ここが今回のミスの核心です。
よくある誤解
- ❌「γは将来の報酬を現在より高く評価する」
- ❌「γが高いほど将来報酬を無視する」
- ❌「報酬の正規化指標である」
正しい判断基準
- γは将来報酬を減らす係数
- γが大きい → 減りにくい → 将来も重視
- γが小さい → すぐ減る → 現在重視
問題文に
「将来の報酬を一定割合で減らす」
とあれば 割引率 γ。
よくある選択肢の見分け方
- 「将来の報酬を高く評価」→ ❌
- 「将来の報酬を無視」→ ❌
- 「将来の報酬を割り引く」→ ⭕
- 「γが1に近いと将来重視」→ ⭕
まとめ(試験直前用)
- 割引率 γ は将来報酬を割り引く係数
- γ が小さいと現在重視
- γ が大きいと将来重視
- 将来報酬を高くする係数ではない
- 強化学習の基本概念
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
- ε-greedy方策(epsilon-greedy policy)とは?【G検定対策】
🏠 G検トップに戻る