Skip to the content.

G検定トップ > 自己教師あり学習(Self-Supervised Learning)とは?疑似ラベルで学ぶ仕組み【G検定対策】

まず結論

  • 自己教師あり学習とは、入力データの一部を擬似ラベルとして利用し、人手でラベル付けをせずに表現学習を行う手法である。
  • G検定では「教師ありでも教師なしでもない点」が問われる。

直感的な説明

自己教師あり学習を一言でいうと、

「問題も答えも、データから自分で作る学習」

です。

例:

  • 文の一部を隠して、隠れた単語を当てさせる
  • 画像の一部を消して、元を復元させる
  • 同じ画像の別変換同士を「同じ」と判断させる

👉 答えはデータの中にすでにある
👉 人が正解ラベルを付けなくていい

定義・仕組み

定義

  • 大量の未ラベルデータを用い、
  • データ自身からタスク(疑似ラベル)を生成して学習する手法
  • 主目的は 汎用的な特徴表現の獲得

代表的な方法

  • マスク言語モデル(BERT)
  • 対比学習(SimCLR, MoCo)
  • 画像復元・予測タスク

重要:

  • 明示的な正解ラベルは使わない
  • しかし 学習自体は教師あり形式

いつ使う?(得意・不得意)

得意な場面

  • ラベル付けコストが高い
  • 大量の未ラベルデータがある
  • 事前学習として使いたい場合

注意点

  • 直接タスクを解くわけではない
  • 最終タスクには微調整(Fine-tuning)が必要
  • 疑似タスク設計が性能に影響する

G検定ひっかけポイント

ここが一番重要です。

よくある誤解

  • ❌「明示的なラベルを使う教師あり学習」
  • ❌「報酬で学ぶ強化学習」
  • ❌「クラスタリング中心の教師なし学習」
  • ❌「複数モデルを選別する手法」

正しい判断基準

  • 疑似ラベルを使う → 自己教師あり
  • 人がラベルを付けない

🔗 関連記事


🏠 G検トップに戻る