gk neural_network
G検定トップ
> 自己教師あり学習(Self-Supervised Learning)とは?疑似ラベルで学ぶ仕組み【G検定対策】
まず結論
- 自己教師あり学習とは、入力データの一部を擬似ラベルとして利用し、人手でラベル付けをせずに表現学習を行う手法である。
- G検定では「教師ありでも教師なしでもない点」が問われる。
直感的な説明
自己教師あり学習を一言でいうと、
「問題も答えも、データから自分で作る学習」
です。
例:
- 文の一部を隠して、隠れた単語を当てさせる
- 画像の一部を消して、元を復元させる
- 同じ画像の別変換同士を「同じ」と判断させる
👉 答えはデータの中にすでにある
👉 人が正解ラベルを付けなくていい
定義・仕組み
定義
- 大量の未ラベルデータを用い、
- データ自身からタスク(疑似ラベル)を生成して学習する手法
- 主目的は 汎用的な特徴表現の獲得
代表的な方法
- マスク言語モデル(BERT)
- 対比学習(SimCLR, MoCo)
- 画像復元・予測タスク
重要:
- 明示的な正解ラベルは使わない
- しかし 学習自体は教師あり形式
いつ使う?(得意・不得意)
得意な場面
- ラベル付けコストが高い
- 大量の未ラベルデータがある
- 事前学習として使いたい場合
注意点
- 直接タスクを解くわけではない
- 最終タスクには微調整(Fine-tuning)が必要
- 疑似タスク設計が性能に影響する
G検定ひっかけポイント
ここが一番重要です。
よくある誤解
- ❌「明示的なラベルを使う教師あり学習」
- ❌「報酬で学ぶ強化学習」
- ❌「クラスタリング中心の教師なし学習」
- ❌「複数モデルを選別する手法」
正しい判断基準
- 疑似ラベルを使う → 自己教師あり
- 人がラベルを付けない
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る