最適化手法まとめ（SGD / AdaGrad / RMSprop / Adam） | AI・データサイエンス・IT学習ノート

最適化手法まとめ（SGD / AdaGrad / RMSprop / Adam）は頻出論点を整理して得点力につなげる学習テーマです。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk neural_network cheatsheet

G検定トップ＞最適化手法まとめ（SGD / AdaGrad / RMSprop / Adam）

まず結論

最適化手法は、「勾配をどう使ってパラメータを更新するか」の違いです。 G検定では、各手法の特徴と進化の流れを理解しているかが問われます。

直感的な説明

最適化手法の進化は、次の悩みを解決する流れです。

SGD：不安定で揺れやすい
Momentum：勢いをつけて安定させたい
AdaGrad：場所ごとに学習率を変えたい
RMSprop：学習が止まるのを防ぎたい
Adam：全部入りにしたい

👉 問題点を1つずつ潰してきた歴史として覚えると混乱しません。

定義・仕組み

主要な最適化手法をまとめます。

手法	特徴	キーワード
SGD	最も基本	勾配降下
Momentum	勢いを持たせる	慣性
AdaGrad	勾配の二乗和を累積	過去を全部ためる
RMSprop	勾配二乗の移動平均	過去を忘れる
Adam	Momentum + RMSprop	最終形

いつ使う？（得意・不得意）

SGD / Momentum

シンプル
ハイパーパラメータ調整が必要

AdaGrad

疎な特徴量に強い
学習率が極端に小さくなる

RMSprop

非定常な問題に強い
減衰率の設定が必要

Adam

初期設定のままでも強い
万能だが最良とは限らない

G検定ひっかけポイント

G検定では、次の混同を狙われます。

AdaGrad と RMSprop の違い
Adam の構成要素
AdaBoost との名前混同

即切り判断ルール

過去すべての勾配 → AdaGrad
過去を忘れる → RMSprop
勢い + 忘却 → Adam
Boost → AdaBoost（別物）

まとめ（試験直前用）

最適化手法は勾配の使い方の違い
AdaGrad：全部ためる
RMSprop：忘れる
Adam：勢い＋忘却
Adamは最終形として覚える

🔗 関連記事

🏠 G検トップに戻る