Skip to the content.

G検定トップ > SegNet(セマンティックセグメンテーション)

まず結論

SegNet は「セマンティックセグメンテーション向けのエンコーダ・デコーダ型 CNN」で、 エンコーダ側で行った最大値プーリングの“位置情報”を記憶し、 デコーダでのアップサンプリングに利用するのが最大の特徴です。

この「プーリング位置を覚えている」という一点が、G検定で最も重要な識別ポイントです。


直感的な説明

SegNet は、

  • 画像を だんだん小さくして重要な特徴を抜き出す(エンコーダ)
  • それを 元の大きさに戻しながら、画素ごとのクラスを決める(デコーダ)

という構造をしています。

ここでのポイントは、

👉 「小さくするときに、どこが一番強かったか(最大値)」をメモしておく

という点です。

そのメモを使って元に戻すことで、

  • 物体の境界がぼやけにくい
  • 画素単位の分類精度が高くなる

というメリットが生まれます。


定義・仕組み

SegNet は以下の特徴を持つネットワークです。

  • セマンティックセグメンテーションに利用される
  • エンコーダ・デコーダ構造を持つ
  • エンコーダは CNN + 最大値プーリング
  • 最大値プーリング時の位置(インデックス)を保存
  • デコーダではその位置情報を使ってアップサンプリング

重要なのは、

❌ 学習済みの重みで逆畳み込みするのではない ⭕ プーリング位置を使って「戻す場所」を決める

という点です。


いつ使う?(得意・不得意)

得意なこと

  • 道路・建物・人などを 画素ごとに分類したいタスク
  • 物体の輪郭をできるだけ保ちたい場合
  • メモリ効率を意識したセグメンテーション

不得意なこと

  • インスタンスセグメンテーション(個体識別)
  • Attention や Transformer を用いた高表現力モデル

G検定ひっかけポイント

ここは 超重要 です。

① SENet と混同する

  • SENet:チャネル方向の注意(重み付け)
  • SegNet:エンコーダ・デコーダ + プーリング位置の記憶

👉 「注意」「チャネル重み」→ SegNet ではない


② AlexNet / GoogLeNet と混同する

  • AlexNet / GoogLeNet:画像分類が主目的
  • SegNet:セマンティックセグメンテーション

👉 「エンコーダとデコーダが対」 👉 「画素単位の出力」

が書かれていたら SegNet を疑う


③ U-Net との違いを聞かれる可能性

  • SegNet:プーリング位置を保存して利用
  • U-Net:特徴マップをスキップ接続

G検定では

👉 「最大値プーリングの位置を記憶」= SegNet

で即断できれば OK です。


まとめ(試験直前用)

  • SegNet は セマンティックセグメンテーション用 CNN
  • エンコーダ・デコーダ構造を持つ
  • 最大値プーリングの位置を記憶するのが最大の特徴
  • 注意機構(SENet)や分類モデル(AlexNet, GoogLeNet)とは別物

👉 「プーリング位置を覚えて戻す」= SegNet

🔗 関連記事


🏠 G検トップに戻る