gk
G検定トップ
> 探索・推論と強化学習の違い(どれを使う?)
まず結論
探索・推論と強化学習は、どちらも「行動を決める」問題を扱いますが、 「答えの見つけ方」がまったく違います。
- 探索・推論: ルールに基づいて 正しい手順・経路を論理的に探す
- 強化学習: 試行錯誤しながら 報酬を最大化する行動を学習する
G検定では、 👉 「事前にルールが分かっているか?」 👉 「試行錯誤と報酬があるか?」 を見ると即断できます。
直感的な説明
探索・推論は「地図を見ながら進む」
- 迷路の地図が分かっている
- 一本道や手順が明確
👉 正解までの 道順を計算で求める
強化学習は「やってみて覚える」
- 最初は正解が分からない
- 行動の結果として報酬をもらう
👉 失敗しながら上手くなる
定義・仕組み
探索・推論
- 状態空間の中から解を見つける
- 幅優先探索、深さ優先探索、A* など
- ルールや遷移が 事前に分かっている
👉 一度解ければ、毎回同じ答えが出る
強化学習(Reinforcement Learning)
- 環境と相互作用しながら学習
- 行動 → 状態変化 → 報酬
- Q学習、方策勾配法など
👉 正解は 事前には分からない
いつ使う?(得意・不得意)
探索・推論が向いている
- 迷路の経路探索
- ハノイの塔
- ロボットの移動経路計画(地図あり)
- パズル・ゲームの手順探索
探索・推論が向いていない
- 環境が不確実・動的
- 明確なルールが定義できない問題
強化学習が向いている
- ゲームプレイ(囲碁・将棋など)
- ロボット制御(試行錯誤できる場合)
- 自動運転の行動判断
強化学習が向いていない
- 正解手順がすでに分かっている問題
- 試行錯誤のコストが高すぎる問題
G検定ひっかけポイント
① ロボット=強化学習とは限らない
- 地図あり・経路計画 → 探索・推論
- 試行錯誤で学ぶ制御 → 強化学習
👉 「学習しているか?」を見る
② 「最適化」という言葉
- 最短経路を求める → 探索
- 報酬を最大化 → 強化学習
👉 何を最大化しているかが決め手
③ 報酬の有無
- 報酬が明示されている → 強化学習
- ルールとゴールだけ → 探索・推論
まとめ(試験直前用)
- 探索・推論:ルールが決まっており、計算で解を探す
- 強化学習:試行錯誤と報酬で行動を学ぶ
👉 迷ったら
ルールが明確? → 探索・推論 報酬で学ぶ? → 強化学習
🔗 関連記事
🏠 G検トップに戻る