PSPNet（ピラミッドシーンパースネットワーク）とは？G検定対策 | AI・データサイエンス・IT学習ノート

gk cnn semantic_segmentation

G検定トップ＞ PSPNet（ピラミッドシーンパースネットワーク）とは？G検定対策

まず結論

PSPNet（Pyramid Scene Parsing Network）は、画像全体の文脈情報を取り入れることで高精度なセマンティックセグメンテーションを実現するCNNモデル。
G検定では「Pyramid Pooling Moduleを持つ」「セマンティックセグメンテーション」が判断ポイントとして問われる。

直感的な説明

画像を認識するとき、細かい部分だけでなく全体の状況も分かっていないと誤認識が起きる。
PSPNetは、
- 近くを見る（細部）
- 少し引いて見る（中規模）
- かなり引いて見る（全体）という複数スケールの視点を同時に使って判断するモデル。
人が「森を見てから木を見る」感覚に近い。

定義・仕組み

PSPNetは、
- Encoder-Decoder型のCNN をベースに
- Pyramid Pooling Module（PPM） を中間層に組み込んだ構造

Pyramid Pooling Module（PPM）

特徴マップに対して、
- グローバルプーリング
- 複数サイズの領域プーリングを行い、それらを結合する。
これにより、画像全体の文脈情報（Scene Context）を特徴量に反映できる。

👉 G検定では「Pyramid Pooling Module ＝ PSPNet」と即座に結びつけるのが重要。

いつ使う？（得意・不得意）

得意

セマンティックセグメンテーション
大規模なシーン理解（道路、建物、空、背景など）
物体の大きさが多様な画像

不得意・注意点

個々の物体を区別するインスタンスセグメンテーションには不向き
計算コストが比較的高い

G検定ひっかけポイント

❌ PSPNetはインスタンスセグメンテーション
❌ SegNetとPyramid Pooling Moduleを混同
❌ U-Netと同じ構造だと思う

正しい判断基準

Pyramid Pooling Module → PSPNet
画素ごとにクラス分類 → セマンティックセグメンテーション
個体識別はしない → インスタンスではない

まとめ（試験直前用）

PSPNetはセマンティックセグメンテーションのCNN
Pyramid Pooling Moduleで全体文脈を取り込む
インスタンスセグメンテーションではない
「PSPNet × セマンティック × PPM」のセットで覚える *

🔗 関連記事

🏠 G検トップに戻る