Skip to the content.

G検定トップ > BERTはなぜRNNではなくTransformerなのか?G検定対策

まず結論

  • BERTは、長距離の文脈依存を効率よく学習するために、RNNではなくTransformerを採用しています。
  • G検定では「なぜRNNでは不十分なのか」「Transformerの利点は何か」が問われます。

直感的な説明

  • RNNは、単語を左から順番に読むモデルです。
  • Transformerは、文全体を一度に見渡すモデルです。
  • 長い文章になるほど、

    • RNN:前の情報が後ろに届きにくい
    • Transformer:どの単語同士の関係も一気に見られる という違いが出ます。

定義・仕組み

  • RNN系モデル

    • 時系列に沿って順番に処理
    • BPTTによる学習が必要
    • 長文では勾配消失が起きやすい
  • Transformer

    • Attention(自己注意機構)を使用
    • 単語間の関係を直接計算
    • 並列計算が可能
  • BERT

    • Transformerエンコーダのみを使用
    • 双方向に文脈を考慮

いつ使う?(得意・不得意)

RNN

  • 得意:

    • 短い時系列データ
  • 不得意:

    • 長距離依存
    • 並列処理ができない

Transformer(BERT)

  • 得意:

    • 長文の理解
    • 文脈依存表現
  • 不得意:

    • 計算量が大きい

G検定ひっかけポイント

  • 最大のひっかけ

    • 「BERTはRNNを改良したモデルである」→ ❌
  • 正しい理解

    • BERTはTransformerベース
  • 選択肢で

    • 「順番に処理」→ RNN
    • 「Attentionで単語間関係を直接扱う」→ Transformer
  • 文全体を一度に見るがキーワード

まとめ(試験直前用)

  • RNNは順次処理、長距離が苦手
  • TransformerはAttentionで一括処理
  • BERTはTransformerエンコーダ
  • 長文・文脈重視ならTransformer

🔗 関連記事


🏠 G検トップに戻る