Skip to the content.

G検定トップ > GLUE(General Language Understanding Evaluation)とは?【G検定対策】

まず結論

  • GLUEとは、自然言語理解(NLU)モデルの性能を評価するためのベンチマーク(複数タスクの集合)である。
  • G検定では「学習手法やモデルではない」「評価用タスク群である」点が問われる。

直感的な説明

GLUEは、
「このAI、本当に言葉を理解している?」をまとめてテストする共通試験
のようなものです。

  • 文章の意味が同じか?
  • 質問に正しく答えられるか?
  • 文の関係性を理解できているか?

こうした 複数の問題セット を一括で用意し、
モデルの総合的な言語理解力を評価します。

👉 1つの問題ではなく、テスト問題集そのもの がGLUE。


定義・仕組み

GLUE(General Language Understanding Evaluation)は、

  • 自然言語理解に関する
  • 複数の評価タスク を集めた
  • ベンチマークデータセット

です。

含まれる代表的なタスク例

  • 文の意味類似度判定
  • 文分類
  • 自然言語推論(NLI)
  • 質問応答に近いタスク

モデルはこれらを解き、
平均スコアなどで総合評価されます。


いつ使う?(得意・不得意)

使われる場面

  • BERT系モデルの性能評価
  • NLPモデル同士の比較
  • 研究論文での標準的な評価指標

注意点

  • GLUE自体は 学習しない
  • GLUEは モデルでもアルゴリズムでもない
  • あくまで 評価のための枠組み

G検定ひっかけポイント

ここが 試験での超重要ポイント です。

ひっかけ①

「GLUEは自然言語処理モデルである」
❌ 不正解

→ GLUEは 評価用ベンチマーク


ひっかけ②

「GLUEは1つのタスクを解くデータセットである」
❌ 不正解

複数タスクの集合


ひっかけ③

「GLUEは事前学習に使われる」
❌ 不正解

→ 主目的は 評価

(※ fine-tuning後の性能確認)


正解の判断基準

選択肢に

  • 「評価」
  • 「ベンチマーク」
  • 「複数タスク」

が出てきたら GLUE


まとめ(試験直前用)

  • GLUEは 自然言語理解の評価用ベンチマーク
  • 複数のNLPタスクで構成される
  • モデルでも学習手法でもない
  • 「評価」「タスク集合」がキーワード

👉 GLUE=NLPの共通テスト

🔗 関連記事


🏠 G検トップに戻る