DQN（Deep Q-Network）とは？Experience Replay【G検定対策】 | AI・データサイエンス・IT学習ノート

DQN（Deep Q-Network）はExperience Replayを理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk

G検定トップ＞ DQN（Deep Q-Network）とは？Experience Replay【G検定対策】

まず結論

DQN（Deep Q-Network） とは、Q学習にニューラルネットワークを組み合わせ、Experience Replay（経験再生） を用いて学習を安定させた深層強化学習手法である
G検定では「経験再生を使う代表例」「Q学習との関係」がよく問われる

直感的な説明

人は、

昔の失敗や成功を
思い出しながら
今の判断に活かす

DQNも同じで、

過去の行動と結果を
メモ帳に保存しておき
ランダムに思い出しながら学習する

この仕組みが Experience Replay（経験再生）。 G検定では「過去の経験を再利用する強化学習」と来たら DQN を疑う。

定義・仕組み

DQNの基本構成

ベース：Q学習
Q値（状態・行動の価値）を
- テーブルではなく
- ニューラルネットワークで近似

Experience Replay

（状態, 行動, 報酬, 次状態）の組を保存
ランダムにサンプリングして学習

効果：

データの相関を減らす
学習を安定化

※ G検定では数式は不要。「Q値をNNで近似＋経験再生」で十分。

いつ使う？（得意・不得意）

得意

状態空間が大きい強化学習
ゲームAI（Atari など）
ルールは明確だが状態が多い問題

不得意

連続行動空間（基本のDQNは離散行動）
環境が大きく変化する問題

G検定ひっかけポイント

よくある混同①：VAE

❌ DQN＝生成モデル
✅ DQNは強化学習

よくある混同②：GPU

❌ 経験再生を行うハードウェア
✅ アルゴリズム（学習手法）

よくある混同③：HMM

❌ 強化学習モデル
✅ 確率モデル（系列モデル）

選択肢の判断基準

「経験再生（Experience Replay）」→ DQN
「Q学習＋ニューラルネットワーク」→ DQN
「生成モデル」→ VAE
「確率的状態遷移モデル」→ HMM

まとめ（試験直前用）

DQN＝Q学習＋NN
経験再生で学習を安定化
強化学習の代表例
VAE・HMM・GPUとは無関係
「Experience Replay」が見えたら即DQN

🔗 関連記事

🏠 G検トップに戻る