gk attention transformer
G検定トップ
> BERTはなぜRNNではなくTransformerなのか?G検定対策
まず結論
- BERTは、長距離の文脈依存を効率よく学習するために、RNNではなくTransformerを採用しています。
- G検定では「なぜRNNでは不十分なのか」「Transformerの利点は何か」が問われます。
直感的な説明
- RNNは、単語を左から順番に読むモデルです。
- Transformerは、文全体を一度に見渡すモデルです。
-
長い文章になるほど、
- RNN:前の情報が後ろに届きにくい
- Transformer:どの単語同士の関係も一気に見られる という違いが出ます。
定義・仕組み
-
RNN系モデル
- 時系列に沿って順番に処理
- BPTTによる学習が必要
- 長文では勾配消失が起きやすい
-
Transformer
- Attention(自己注意機構)を使用
- 単語間の関係を直接計算
- 並列計算が可能
-
BERT
- Transformerエンコーダのみを使用
- 双方向に文脈を考慮
いつ使う?(得意・不得意)
RNN
-
得意:
- 短い時系列データ
-
不得意:
- 長距離依存
- 並列処理ができない
Transformer(BERT)
-
得意:
- 長文の理解
- 文脈依存表現
-
不得意:
- 計算量が大きい
G検定ひっかけポイント
-
最大のひっかけ
- 「BERTはRNNを改良したモデルである」→ ❌
-
正しい理解
- BERTはTransformerベース
-
選択肢で
- 「順番に処理」→ RNN
- 「Attentionで単語間関係を直接扱う」→ Transformer
-
文全体を一度に見るがキーワード
まとめ(試験直前用)
- RNNは順次処理、長距離が苦手
- TransformerはAttentionで一括処理
- BERTはTransformerエンコーダ
- 長文・文脈重視ならTransformer
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- Attention・Transformer・BERTの関係とは?【仕組みで整理|G検定対策】
- Attention(注意機構)
🏠 G検トップに戻る