Skip to the content.

G検定トップ > 探索・推論と強化学習の違い(どれを使う?)

まず結論

探索・推論と強化学習は、どちらも「行動を決める」問題を扱いますが、 「答えの見つけ方」がまったく違います。

  • 探索・推論: ルールに基づいて 正しい手順・経路を論理的に探す
  • 強化学習: 試行錯誤しながら 報酬を最大化する行動を学習する

G検定では、 👉 「事前にルールが分かっているか?」 👉 「試行錯誤と報酬があるか?」 を見ると即断できます。


直感的な説明

探索・推論は「地図を見ながら進む」

  • 迷路の地図が分かっている
  • 一本道や手順が明確

👉 正解までの 道順を計算で求める


強化学習は「やってみて覚える」

  • 最初は正解が分からない
  • 行動の結果として報酬をもらう

👉 失敗しながら上手くなる


定義・仕組み

探索・推論

  • 状態空間の中から解を見つける
  • 幅優先探索、深さ優先探索、A* など
  • ルールや遷移が 事前に分かっている

👉 一度解ければ、毎回同じ答えが出る


強化学習(Reinforcement Learning)

  • 環境と相互作用しながら学習
  • 行動 → 状態変化 → 報酬
  • Q学習、方策勾配法など

👉 正解は 事前には分からない


いつ使う?(得意・不得意)

探索・推論が向いている

  • 迷路の経路探索
  • ハノイの塔
  • ロボットの移動経路計画(地図あり)
  • パズル・ゲームの手順探索

探索・推論が向いていない

  • 環境が不確実・動的
  • 明確なルールが定義できない問題

強化学習が向いている

  • ゲームプレイ(囲碁・将棋など)
  • ロボット制御(試行錯誤できる場合)
  • 自動運転の行動判断

強化学習が向いていない

  • 正解手順がすでに分かっている問題
  • 試行錯誤のコストが高すぎる問題

G検定ひっかけポイント

① ロボット=強化学習とは限らない

  • 地図あり・経路計画 → 探索・推論
  • 試行錯誤で学ぶ制御 → 強化学習

👉 「学習しているか?」を見る


② 「最適化」という言葉

  • 最短経路を求める → 探索
  • 報酬を最大化 → 強化学習

👉 何を最大化しているかが決め手


③ 報酬の有無

  • 報酬が明示されている → 強化学習
  • ルールとゴールだけ → 探索・推論

まとめ(試験直前用)

  • 探索・推論:ルールが決まっており、計算で解を探す
  • 強化学習:試行錯誤と報酬で行動を学ぶ

👉 迷ったら

ルールが明確? → 探索・推論 報酬で学ぶ? → 強化学習

🔗 関連記事


🏠 G検トップに戻る