gk 機械学習 頻出
G検定トップ
> 強化学習
まず結論
強化学習とは、環境との試行錯誤を通じて、報酬を最大化する行動を学習する方法です。
直感的な説明
「正解を教えてもらえないけど、
うまくいったらご褒美、失敗したらペナルティがもらえる」
そんな環境で、
👉 どう動けば得をするかを自分で学ぶ
のが強化学習です。
ゲームをプレイして上達するイメージが近いです。
代表的な手法・キーワード
基本要素
- エージェント
- 環境
- 行動
- 報酬
- 状態
代表的手法
- Q学習
- SARSA
- 方策勾配法
- Deep Q-Network(DQN)
教師あり・教師なし学習との違い
| 項目 | 教師あり学習 | 教師なし学習 | 強化学習 |
|---|---|---|---|
| 正解ラベル | ある | ない | ない |
| フィードバック | 正解 | なし | 報酬 |
| 目的 | 予測・分類 | 構造の発見 | 行動の最適化 |
G検定ひっかけポイント
- 強化学習には 正解ラベルはない
- 教師なし学習とも違う
→ 報酬がある - Q学習は 強化学習
よくある勘違い
- ❌ 強化学習=教師なし学習
→ ⭕ 別物(報酬の有無が決定的) - ❌ 毎回すぐ正解が分かる
→ ⭕ 遅れて報酬が返ってくることも多い
まとめ(試験直前用)
- 強化学習=報酬を最大化
- 正解ラベルはないが 評価はある
- エージェント・環境・報酬はセットで覚える
🔗 関連記事
🏠 G検トップに戻る