Seq2SeqからTransformerへの進化【Attention登場の理由】 | AI・データサイエンス・IT学習ノート

Seq2SeqからTransformerへの進化は重要ポイントを整理して理解するための用語です。この記事では仕組み・役割・使いどころを押さえ、G検定で問われる判断ポイントとひっかけポイントを解説します。

gk rnn attention transformer nlp

G検定トップ＞ Seq2SeqからTransformerへの進化【Attention登場の理由】

まず結論

Seq2Seq → Attention → Transformer は、
「長文が苦手」「並列処理できない」というRNNの限界を克服するための進化の流れである。
G検定では 「何が問題で、何が解決されたか」 が問われる。

直感的な説明

Seq2Seq：
👉「全文を一度丸暗記してから話す」
Attention：
👉「話すときに、必要な部分を見返しながら話す」
Transformer：
👉「最初から全部を見渡し、同時に処理する」

つまり
記憶頼り → 参照可能 → 並列処理 への進化。

定義・仕組み

Seq2Seq（RNNエンコーダ・デコーダ）

入力系列を 1つの固定長ベクトル に圧縮
長文になるほど情報が欠落
処理は 時系列順（並列不可）

Attention

デコーダが 入力系列の各部分を重み付きで参照
長文でも重要部分を使える
ただし RNN構造自体は残る

Transformer

RNNを完全に廃止
Self-Attentionのみで系列を処理
全トークンを 並列処理 可能
長距離依存関係に強い

いつ使う？（得意・不得意）

Seq2Seq

短文の翻訳
小規模タスク

Attention付きSeq2Seq

長文翻訳
音声認識・要約

Transformer

大規模言語モデル（BERT, GPT）
高速学習・高精度が必要な場面

G検定ひっかけポイント

❌「Seq2SeqはAttentionを前提としている」
❌「TransformerはSeq2Seqの一種」
❌「Attention = Transformer」

👉 Attentionは仕組み
👉 Transformerはモデル構造

判断基準

固定長ベクトル → Seq2Seq
重み付き参照 → Attention
RNNなし・並列処理 → Transformer

まとめ（試験直前用）

Seq2Seq：RNNで系列→系列
問題：長文に弱い・並列不可
Attention：必要部分を参照
Transformer：RNNを捨てて完全並列
「何を解決したか」を見る

🔗 関連記事

🏠 G検トップに戻る