gk reinforcement_learning
G検定トップ
> 状態価値関数(State Value Function)とは?G検定対策
まず結論
- 状態価値関数(State Value Function)とは、「ある状態において、将来得られる累積報酬の期待値を表す関数」。
- G検定では即時報酬との違いや行動価値関数(Q関数)との区別がよく問われる。
直感的な説明
- ゲームの途中で「今この場所にいると、最終的にどれくらい点数が伸びそうか?」を考えるイメージです。
- 目の前でもらえる点(即時報酬)ではなく、 この状態に居続けた結果、トータルでどれくらい得かを評価します。
- つまり、👉 今の状態の“将来性”を数値化したものです。
定義・仕組み
-
状態価値関数は、強化学習において
- 状態 s が与えられたとき
- ある方策(ポリシー)に従って行動した場合の
- 将来の割引累積報酬の期待値 を表します。
-
重要ポイント:
- 即時報酬だけではない
- 将来の報酬(割引後)を含む
- 「状態」だけを評価する
いつ使う?(得意・不得意)
使われる場面(得意)
- 状態の良し悪しを評価したいとき
- 方策評価(Policy Evaluation)
- 動的計画法・価値反復法
注意点・不得意
- 行動ごとの比較はできない
- 行動選択には直接使いにくい
- 行動も評価したい場合は Q関数を使う
G検定ひっかけポイント
-
よくある誤解:
- ❌ 「即時報酬だけを評価する関数」
- ❌ 「最大報酬を記録する関数」
-
混同しやすい用語:
- 行動価値関数(Action Value Function / Q関数)
-
判断基準:
- 状態だけ → 状態価値関数
- 状態+行動 → 行動価値関数(Q関数)
- 即時報酬のみ → 不正解
まとめ(試験直前用)
- 状態価値関数=状態の将来性を評価
- 累積報酬の期待値を表す
- 即時報酬だけではない
- 行動は含まない
- 「状態か?行動か?」で切る
🔗 関連記事
- AlphaGo・AlphaGo Zero・AlphaZero・OpenAI Five・AlphaStar 完全比較【G検定対策】
- AlphaGoとAlphaStarの違い【比較チートシート|G検定対策】
- 割引率(γ)とは?将来報酬をどう評価するか【G検定対策】
- 分散型強化学習とは?【特徴とマルチエージェントとの違い|G検定対策】
- デュエリングネットワーク(Dueling Network)とは?G検定対策
🏠 G検トップに戻る