強化学習 | AI・データサイエンス・IT学習ノート

G検定トップ＞強化学習

まず結論

強化学習とは、環境との試行錯誤を通じて、報酬を最大化する行動を学習する方法です。

「正解を教えてもらえないけど、
うまくいったらご褒美、失敗したらペナルティがもらえる」

そんな環境で、
👉 どう動けば得をするかを自分で学ぶ
のが強化学習です。

ゲームをプレイして上達するイメージが近いです。

強化学習では、エージェントが環境を観測し、状態に応じて行動を選びます。行動によって環境の状態が変化し、報酬が返されます。この繰り返しから、将来まで含めた報酬の合計である累積報酬を大きくする方策を学びます。

目先の報酬だけを選ぶと、将来の大きな報酬を逃すことがあります。このため強化学習では、即時報酬ではなく累積報酬を考えます。また、既知の良い行動を選ぶ活用と、未知の行動を試す探索の両立が必要です。

項目	教師あり学習	教師なし学習	強化学習
正解ラベル	ある	ない	ない
フィードバック	正解	なし	報酬
目的	予測・分類	構造の発見	行動の最適化