gk cnn semantic_segmentation
G検定トップ
> PSPNet(ピラミッドシーンパースネットワーク)とは?G検定対策
まず結論
- PSPNet(Pyramid Scene Parsing Network)は、画像全体の文脈情報を取り入れることで高精度なセマンティックセグメンテーションを実現するCNNモデル。
- G検定では「Pyramid Pooling Moduleを持つ」「セマンティックセグメンテーション」が判断ポイントとして問われる。
直感的な説明
- 画像を認識するとき、細かい部分だけでなく全体の状況も分かっていないと誤認識が起きる。
-
PSPNetは、
- 近くを見る(細部)
- 少し引いて見る(中規模)
- かなり引いて見る(全体) という複数スケールの視点を同時に使って判断するモデル。
- 人が「森を見てから木を見る」感覚に近い。
定義・仕組み
-
PSPNetは、
- Encoder-Decoder型のCNN をベースに
- Pyramid Pooling Module(PPM) を中間層に組み込んだ構造
Pyramid Pooling Module(PPM)
-
特徴マップに対して、
- グローバルプーリング
- 複数サイズの領域プーリング を行い、それらを結合する。
-
これにより、画像全体の文脈情報(Scene Context)を特徴量に反映できる。
👉 G検定では「Pyramid Pooling Module = PSPNet」と即座に結びつけるのが重要。
いつ使う?(得意・不得意)
得意
- セマンティックセグメンテーション
- 大規模なシーン理解(道路、建物、空、背景など)
- 物体の大きさが多様な画像
不得意・注意点
- 個々の物体を区別するインスタンスセグメンテーションには不向き
- 計算コストが比較的高い
G検定ひっかけポイント
- ❌ PSPNetはインスタンスセグメンテーション
- ❌ SegNetとPyramid Pooling Moduleを混同
- ❌ U-Netと同じ構造だと思う
正しい判断基準
- Pyramid Pooling Module → PSPNet
- 画素ごとにクラス分類 → セマンティックセグメンテーション
- 個体識別はしない → インスタンスではない
まとめ(試験直前用)
- PSPNetはセマンティックセグメンテーションのCNN
- Pyramid Pooling Moduleで全体文脈を取り込む
- インスタンスセグメンテーションではない
- 「PSPNet × セマンティック × PPM」のセットで覚える *
🔗 関連記事
- AlexNet(ディープラーニング革命の起点)とは?G検定対策
- Atrous Convolution(拡張畳み込み)とは?【DeepLabで使われる理由|G検定対策】
- Atrous ConvolutionとPoolingの違いとは?【受容野と解像度の観点で整理|G検定対策】
- AutoAugment・RandAugment・TrivialAugmentの違い【画像データ拡張 完全比較|G検定対策】
- Brightness(明るさ調整)とは?【データ拡張|G検定対策】
🏠 G検トップに戻る