DQN / AlphaGo / Agent57【強化学習の系譜まとめ】 | AI・データサイエンス・IT学習ノート

DQN / AlphaGo / Agent57は重要ポイントを整理して理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk neural_network cheatsheet

G検定トップ＞ DQN / AlphaGo / Agent57【強化学習の系譜まとめ】

まず結論

DQN → AlphaGo → Agent57 は、強化学習が「単一タスク」から「汎用エージェント」へ進化した流れ。
G検定では 「どの課題を解決したモデルか」を時系列で整理できているかが問われる。

直感的な説明

DQN：🎮 1つのゲームを上手くなる
AlphaGo：♟ 囲碁という難しい1ゲームを極める
Agent57：🕹 ゲームが変わっても人間超え

人間に例えると：

DQN：特定ゲームの猛特訓
AlphaGo：囲碁のプロ棋士
Agent57：どんなゲームでも強い万能プレイヤー

定義・仕組み

DQN（Deep Q-Network）

:contentReference[oaicite:1]{index=1} が開発
Q学習にニューラルネットワークを導入
Atariゲームで人間レベルを達成
特徴：
- 価値関数（Q値）を学習
- 単一タスク向け

AlphaGo

囲碁専用の強化学習システム
特徴：
- 方策ネットワーク（Policy）
- 価値ネットワーク（Value）
- モンテカルロ木探索（MCTS）
人間トップ棋士に勝利
特定タスク特化型

Agent57

Atari 57種類すべてで人間平均超え
特徴：
- 複数ポリシーの切り替え
- エピソディックメモリ
- 探索と活用の自動調整
汎用強化学習エージェント

いつ使う？（得意・不得意）

DQN

得意：シンプルなゲーム環境
注意：タスクが変わると使えない

AlphaGo

得意：囲碁・将棋などの完全情報ゲーム
注意：他タスクには転用不可

Agent57

得意：複数ゲーム・未知環境
注意：計算資源が大きい

G検定ひっかけポイント

「どこが進化したか」を聞かれる
よくある誤解：
- ❌ AlphaGoは汎用AI
- ❌ Agent57はNLPモデル
正しい整理：
- DQN：深層強化学習の出発点
- AlphaGo：探索×学習の完成形（特化）
- Agent57：汎用性の到達点
選択肢の判断基準：
- 「Q学習」→ DQN
- 「囲碁・MCTS」→ AlphaGo
- 「57 Atari・汎用」→ Agent57

まとめ（試験直前用）

DQN：深層強化学習の始まり
AlphaGo：特定タスクで人間超え
Agent57：複数タスクで人間超え
進化の軸は 汎用性
「Atari 57種」＝ Agent57

🔗 関連記事

🏠 G検トップに戻る