gk neural_network cnn
G検定トップ
> SegNet(セグメンテーションネットワーク)とは?【G検定対策】
まず結論
- SegNet は、Encoder-Decoder 構造を使ったセマンティックセグメンテーション用 CNNで、
プーリング時のインデックスを保存して復元に使うのが最大の特徴。 - G検定では U-Net や FCN との違い(何を保存・利用しているか)を問われる。
直感的な説明
- SegNet は「縮小するときの場所メモ(どこを代表として残したか)を覚えておき、元のサイズに戻す」モデル。
- 画像を小さくするとき(プーリング)に
👉「このブロックの代表はここだったよ」という 位置情報(インデックス)だけをメモ
👉 復元するときは、その場所に値を戻す - 画像そのものをコピーして持ち歩かないので、メモリ節約型。
定義・仕組み
- SegNet は Encoder-Decoder 型の CNNによるセマンティックセグメンテーションモデル。
- Encoder:
- CNN + Max Pooling で特徴を圧縮
- Pooling のインデックス(最大値の位置)を保存
- Decoder:
- 保存した Pooling インデックスを使ってアップサンプリング
- 畳み込みで画素ごとのクラスを推定
- 特徴:
- Encoder の特徴マップを Decoder に直接コピーしない
- 代わりに 位置情報(インデックス)だけを使う
いつ使う?(得意・不得意)
得意
- セマンティックセグメンテーション(道路・建物・人物など)
- メモリ制約が厳しい環境
- リアルタイム性を意識した用途
不得意・注意
- 細かい境界表現は U-Net より弱い場合あり
- Encoder の特徴量を直接使えないため、情報量は少なめ
G検定ひっかけポイント
- U-Net と SegNet を混同させてくるのが超定番
- よくある誤解:
- ❌「SegNet は Encoder の特徴マップを skip connection で渡す」
- ⭕「SegNet は プーリングインデックスのみを Decoder に渡す」
- 選択肢で注意する表現:
- 「特徴マップを結合する」→ U-Net
- 「Pooling の位置情報を利用」→ SegNet
- 判断基準:
- 何を Decoder に渡しているか?
- 特徴量 → U-Net
- インデックス → SegNet
- 何を Decoder に渡しているか?
まとめ(試験直前用)
- SegNet = プーリングインデックスを使う Encoder-Decoder 型 CNN
- 特徴マップは渡さない(これが最大の差)
- メモリ効率重視のセマンティックセグメンテーション
- G検定では U-Net との違いを狙われる
-
「位置情報だけ保存」= SegNet
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る