Skip to the content.

G検定トップ > 強化学習

まず結論

強化学習とは、環境との試行錯誤を通じて、報酬を最大化する行動を学習する方法です。


直感的な説明

「正解を教えてもらえないけど、
うまくいったらご褒美、失敗したらペナルティがもらえる」

そんな環境で、
👉 どう動けば得をするかを自分で学ぶ
のが強化学習です。

ゲームをプレイして上達するイメージが近いです。


代表的な手法・キーワード

基本要素

  • エージェント
  • 環境
  • 行動
  • 報酬
  • 状態

代表的手法

  • Q学習
  • SARSA
  • 方策勾配法
  • Deep Q-Network(DQN)

教師あり・教師なし学習との違い

項目 教師あり学習 教師なし学習 強化学習
正解ラベル ある ない ない
フィードバック 正解 なし 報酬
目的 予測・分類 構造の発見 行動の最適化

G検定ひっかけポイント

  • 強化学習には 正解ラベルはない
  • 教師なし学習とも違う
    報酬がある
  • Q学習は 強化学習

よくある勘違い

  • ❌ 強化学習=教師なし学習
    → ⭕ 別物(報酬の有無が決定的)
  • ❌ 毎回すぐ正解が分かる
    → ⭕ 遅れて報酬が返ってくることも多い

まとめ(試験直前用)

  • 強化学習=報酬を最大化
  • 正解ラベルはないが 評価はある
  • エージェント・環境・報酬はセットで覚える

🔗 関連記事


🏠 G検トップに戻る