gk neural_network cheatsheet
G検定トップ
> 学習率スケジューリング(Learning Rate Scheduling)
まず結論
- 学習率は固定よりも変化させた方が安定して学習できる
- 学習初期は 大きく、後半は 小さく が基本
- G検定では 代表的なスケジューリング手法の違い を押さえる
直感的な説明
学習率は、
パラメータをどれくらいの大きさで更新するか
を決める値です。
- 学習率が大きすぎる → 発散・振動する
- 学習率が小さすぎる → なかなか収束しない
そのため、
「最初は大胆に、後半は慎重に」
という考え方で学習率を変化させます。
定義・仕組み
学習率スケジューリングとは
- 学習の進行に応じて 学習率を変化させる手法
-
主に以下を目的とする
- 収束の安定化
- 局所最適解からの脱出
- 学習の高速化
代表的な手法
1. Step Decay(段階的減衰)
- 一定エポックごとに学習率を下げる
- シンプルで理解しやすい
例
100epochごとに learning rate を 1/10 にする
2. Exponential Decay(指数減衰)
- 学習率を指数関数的に減少させる
- なめらかに学習率が下がる
特徴
- Stepより自然
- ハイパーパラメータ調整が必要
3. Cosine Annealing(コサイン減衰)
- コサイン関数を使って学習率を変化させる
- 終盤で急激に小さくなる
特徴
- 近年よく使われる
- 深層学習と相性が良い
4. Warmup(ウォームアップ)
- 学習初期は あえて学習率を小さく する
- 徐々に通常の学習率まで上げる
使われる場面
- Transformer
- 大規模モデル
いつ使う?(得意・不得意)
得意
- 深いニューラルネットワーク
- 学習が不安定なモデル
- 大規模データ
注意点
- 設計が複雑になる
- 効果はモデル依存
G検定ひっかけポイント
- ❌「学習率は固定でよい」→ 誤り
- ❌「後半ほど学習率を上げる」→ 誤り
- ✅ 初期は大きく、後半は小さく
- ✅ Warmup は 最初に小さくする
まとめ(試験直前用)
- 学習率は 動かすのが基本
- Step / Exponential / Cosine が代表例
- Warmup は Transformer で頻出
👉 次は 誤差逆伝播(Backpropagation)まとめ に進むと理解が一気につながります。
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- NISC・IPA・JPCERT/CC・CSIRTの違いまとめ【一発で切れるチートシート】
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
🏠 G検トップに戻る