学習率スケジューリング（Learning Rate Scheduling） | AI・データサイエンス・IT学習ノート

学習率スケジューリング（Learning Rate Scheduling）は重要ポイントを整理して理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk neural_network cheatsheet

G検定トップ＞学習率スケジューリング（Learning Rate Scheduling）

まず結論

学習率は固定よりも変化させた方が安定して学習できる
学習初期は 大きく、後半は 小さく が基本
G検定では 代表的なスケジューリング手法の違い を押さえる

直感的な説明

学習率は、

パラメータをどれくらいの大きさで更新するか

を決める値です。

学習率が大きすぎる → 発散・振動する
学習率が小さすぎる → なかなか収束しない

そのため、

「最初は大胆に、後半は慎重に」

という考え方で学習率を変化させます。

定義・仕組み

学習率スケジューリングとは

学習の進行に応じて 学習率を変化させる手法
主に以下を目的とする
- 収束の安定化
- 局所最適解からの脱出
- 学習の高速化

代表的な手法

1. Step Decay（段階的減衰）

一定エポックごとに学習率を下げる
シンプルで理解しやすい

例

100epochごとに learning rate を 1/10 にする

2. Exponential Decay（指数減衰）

学習率を指数関数的に減少させる
なめらかに学習率が下がる

特徴

Stepより自然
ハイパーパラメータ調整が必要

3. Cosine Annealing（コサイン減衰）

コサイン関数を使って学習率を変化させる
終盤で急激に小さくなる

特徴

近年よく使われる
深層学習と相性が良い

4. Warmup（ウォームアップ）

学習初期は あえて学習率を小さく する
徐々に通常の学習率まで上げる

使われる場面

Transformer
大規模モデル

いつ使う？（得意・不得意）

得意

深いニューラルネットワーク
学習が不安定なモデル
大規模データ

注意点

設計が複雑になる
効果はモデル依存

G検定ひっかけポイント

❌「学習率は固定でよい」→ 誤り
❌「後半ほど学習率を上げる」→ 誤り
✅ 初期は大きく、後半は小さく
✅ Warmup は 最初に小さくする

まとめ（試験直前用）

学習率は 動かすのが基本
Step / Exponential / Cosine が代表例
Warmup は Transformer で頻出

👉 次は 誤差逆伝播（Backpropagation）まとめ に進むと理解が一気につながります。

🔗 関連記事

🏠 G検トップに戻る