Skip to the content.

G検定トップ > 状態価値関数(State Value Function)とは?G検定対策

まず結論

  • 状態価値関数(State Value Function)とは、「ある状態において、将来得られる累積報酬の期待値を表す関数」。
  • G検定では即時報酬との違い行動価値関数(Q関数)との区別がよく問われる。

直感的な説明

  • ゲームの途中で「今この場所にいると、最終的にどれくらい点数が伸びそうか?」を考えるイメージです。
  • 目の前でもらえる点(即時報酬)ではなく、 この状態に居続けた結果、トータルでどれくらい得かを評価します。
  • つまり、👉 今の状態の“将来性”を数値化したものです。

定義・仕組み

  • 状態価値関数は、強化学習において

    • 状態 s が与えられたとき
    • ある方策(ポリシー)に従って行動した場合の
    • 将来の割引累積報酬の期待値 を表します。
  • 重要ポイント:

    • 即時報酬だけではない
    • 将来の報酬(割引後)を含む
    • 「状態」だけを評価する

いつ使う?(得意・不得意)

使われる場面(得意)

  • 状態の良し悪しを評価したいとき
  • 方策評価(Policy Evaluation)
  • 動的計画法・価値反復法

注意点・不得意

  • 行動ごとの比較はできない
  • 行動選択には直接使いにくい
  • 行動も評価したい場合は Q関数を使う

G検定ひっかけポイント

  • よくある誤解:

    • ❌ 「即時報酬だけを評価する関数」
    • ❌ 「最大報酬を記録する関数」
  • 混同しやすい用語:

    • 行動価値関数(Action Value Function / Q関数)
  • 判断基準:

    • 状態だけ → 状態価値関数
    • 状態+行動 → 行動価値関数(Q関数)
    • 即時報酬のみ → 不正解

まとめ(試験直前用)

  • 状態価値関数=状態の将来性を評価
  • 累積報酬の期待値を表す
  • 即時報酬だけではない
  • 行動は含まない
  • 「状態か?行動か?」で切る

🔗 関連記事


🏠 G検トップに戻る