gk neural_network
G検定トップ
> AdaGradとは?G検定対策
まず結論
AdaGrad(Adaptive Gradient)は、各パラメータごとに学習率を自動調整する最適化手法です。 G検定では、「過去すべての勾配の二乗和を使う」点が問われます。
直感的な説明
AdaGradは、
「たくさん動いたパラメータは慎重に、あまり動いていないパラメータは大きく動かす」
という考え方の最適化手法です。
- 更新が多いパラメータ → 学習率がどんどん小さくなる
- 更新が少ないパラメータ → 学習率があまり下がらない
その結果、特徴量ごとに最適な更新量になります。
定義・仕組み
AdaGradは、確率的勾配降下法(SGD)を改良した手法です。
ポイントは次の1点です。
- 過去すべての勾配の二乗和を累積する
式のイメージは次の通りです。
G_t = G_{t-1} + g_t^2
g_t:時刻tの勾配G_t:これまでの勾配二乗和
この G_t を使って、パラメータごとに学習率を調整します。
いつ使う?(得意・不得意)
得意な点
- 特徴量ごとのスケール差が大きい問題
- 自然言語処理などの疎な特徴量
不得意・注意点
- 勾配を累積し続けるため、 学習が進むと学習率が極端に小さくなる
👉 この欠点を改良したのが RMSprop や Adam です。
G検定ひっかけポイント
G検定では、次の混同が頻出です。
- AdaBoost と混同させる
- RMSprop の説明と入れ替える
選択肢の切り方は次の通りです。
- 「過去すべての勾配の二乗和」→ AdaGrad
- 「過去を忘れる」→ RMSprop
- 「Boost」→ AdaBoost(最適化手法ではない)
まとめ(試験直前用)
- AdaGradは最適化手法
- SGDを改良した方法
- 勾配の二乗和を累積する
- 学習率は自動調整されるが0にはならない
- 過去を忘れないのが特徴
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る