SegNet（セマンティックセグメンテーション） | AI・データサイエンス・IT学習ノート

gk neural_network cnn

G検定トップ＞ SegNet（セマンティックセグメンテーション）

まず結論

SegNet は「セマンティックセグメンテーション向けのエンコーダ・デコーダ型 CNN」で、エンコーダ側で行った最大値プーリングの“位置情報”を記憶し、デコーダでのアップサンプリングに利用するのが最大の特徴です。

この「プーリング位置を覚えている」という一点が、G検定で最も重要な識別ポイントです。

直感的な説明

SegNet は、

画像を だんだん小さくして重要な特徴を抜き出す（エンコーダ）
それを 元の大きさに戻しながら、画素ごとのクラスを決める（デコーダ）

という構造をしています。

ここでのポイントは、

👉 「小さくするときに、どこが一番強かったか（最大値）」をメモしておく

という点です。

そのメモを使って元に戻すことで、

物体の境界がぼやけにくい
画素単位の分類精度が高くなる

というメリットが生まれます。

定義・仕組み

SegNet は以下の特徴を持つネットワークです。

セマンティックセグメンテーションに利用される
エンコーダ・デコーダ構造を持つ
エンコーダは CNN + 最大値プーリング
最大値プーリング時の位置（インデックス）を保存
デコーダではその位置情報を使ってアップサンプリング

重要なのは、

❌ 学習済みの重みで逆畳み込みするのではない ⭕ プーリング位置を使って「戻す場所」を決める

という点です。

いつ使う？（得意・不得意）

得意なこと

道路・建物・人などを 画素ごとに分類したいタスク
物体の輪郭をできるだけ保ちたい場合
メモリ効率を意識したセグメンテーション

不得意なこと

インスタンスセグメンテーション（個体識別）
Attention や Transformer を用いた高表現力モデル

G検定ひっかけポイント

ここは 超重要 です。

① SENet と混同する

SENet：チャネル方向の注意（重み付け）
SegNet：エンコーダ・デコーダ + プーリング位置の記憶

👉 「注意」「チャネル重み」→ SegNet ではない

② AlexNet / GoogLeNet と混同する

AlexNet / GoogLeNet：画像分類が主目的
SegNet：セマンティックセグメンテーション

👉 「エンコーダとデコーダが対」 👉 「画素単位の出力」

が書かれていたら SegNet を疑う

③ U-Net との違いを聞かれる可能性

SegNet：プーリング位置を保存して利用
U-Net：特徴マップをスキップ接続

G検定では

👉 「最大値プーリングの位置を記憶」＝ SegNet

で即断できれば OK です。

まとめ（試験直前用）

SegNet は セマンティックセグメンテーション用 CNN
エンコーダ・デコーダ構造を持つ
最大値プーリングの位置を記憶するのが最大の特徴
注意機構（SENet）や分類モデル（AlexNet, GoogLeNet）とは別物

👉 「プーリング位置を覚えて戻す」＝ SegNet

🔗 関連記事

🏠 G検トップに戻る