gk neural_network cheatsheet
G検定トップ
> DQN / AlphaGo / Agent57【強化学習の系譜まとめ】
まず結論
- DQN → AlphaGo → Agent57 は、強化学習が「単一タスク」から「汎用エージェント」へ進化した流れ。
- G検定では 「どの課題を解決したモデルか」を時系列で整理できているかが問われる。
直感的な説明
- DQN:🎮 1つのゲームを上手くなる
- AlphaGo:♟ 囲碁という難しい1ゲームを極める
- Agent57:🕹 ゲームが変わっても人間超え
人間に例えると:
- DQN:特定ゲームの猛特訓
- AlphaGo:囲碁のプロ棋士
- Agent57:どんなゲームでも強い万能プレイヤー
定義・仕組み
DQN(Deep Q-Network)
- :contentReference[oaicite:1]{index=1} が開発
- Q学習にニューラルネットワークを導入
- Atariゲームで人間レベルを達成
- 特徴:
- 価値関数(Q値)を学習
- 単一タスク向け
AlphaGo
- 囲碁専用の強化学習システム
- 特徴:
- 方策ネットワーク(Policy)
- 価値ネットワーク(Value)
- モンテカルロ木探索(MCTS)
- 人間トップ棋士に勝利
- 特定タスク特化型
Agent57
- Atari 57種類すべてで人間平均超え
- 特徴:
- 複数ポリシーの切り替え
- エピソディックメモリ
- 探索と活用の自動調整
- 汎用強化学習エージェント
いつ使う?(得意・不得意)
DQN
- 得意:シンプルなゲーム環境
- 注意:タスクが変わると使えない
AlphaGo
- 得意:囲碁・将棋などの完全情報ゲーム
- 注意:他タスクには転用不可
Agent57
- 得意:複数ゲーム・未知環境
- 注意:計算資源が大きい
G検定ひっかけポイント
- 「どこが進化したか」を聞かれる
- よくある誤解:
- ❌ AlphaGoは汎用AI
- ❌ Agent57はNLPモデル
- 正しい整理:
- DQN:深層強化学習の出発点
- AlphaGo:探索×学習の完成形(特化)
- Agent57:汎用性の到達点
- 選択肢の判断基準:
- 「Q学習」→ DQN
- 「囲碁・MCTS」→ AlphaGo
- 「57 Atari・汎用」→ Agent57
まとめ(試験直前用)
- DQN:深層強化学習の始まり
- AlphaGo:特定タスクで人間超え
- Agent57:複数タスクで人間超え
- 進化の軸は 汎用性
- 「Atari 57種」= Agent57
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- NISC・IPA・JPCERT/CC・CSIRTの違いまとめ【一発で切れるチートシート】
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
🏠 G検トップに戻る