Mask R-CNN（インスタンスセグメンテーション）とは？G検定対策 | AI・データサイエンス・IT学習ノート

gk cnn neural_network

G検定トップ＞ Mask R-CNN（インスタンスセグメンテーション）とは？G検定対策

まず結論

Mask R-CNN とは、「物体検出（位置・クラス）」に加えてピクセル単位のマスク（形状）まで出力できるモデルである
G検定では Faster R-CNNとの違い や セマンティックセグメンテーションとの区別 がよく問われる

直感的な説明

Faster R-CNNは「ここに人がいる（四角で囲む）」まで
Mask R-CNNは「このピクセル全部がこの人（切り抜き）」まで分かる

例えるなら：

Faster R-CNN：写真の中の人を「赤枠」で囲む
Mask R-CNN：その人を「背景から切り抜く」

G検定では
「枠だけか？ピクセル単位か？」を意識すると整理しやすい。

定義・仕組み

Mask R-CNN は Faster R-CNN を拡張したモデル
構成は次の3つの出力を同時に行う

Bounding Box（位置）
Class（クラス分類）
Mask（ピクセル単位の領域）

技術的なポイント：

Faster R-CNN の RoI Pooling を RoI Align に置き換え
位置ずれを減らし、マスクの精度を向上させている

※ 数式は不要。
G検定では「RoI Align が Mask R-CNN の特徴」と分かれば十分。

いつ使う？（得意・不得意）

得意

人・車・物体の正確な形状が必要なタスク
医療画像、画像編集、精密な物体認識
インスタンスセグメンテーション

不得意

リアルタイム性が最重要な場面
（YOLO などの1段階検出の方が速い）
単に「何があるか分かればよい」タスク

G検定ひっかけポイント

よくある混同

❌ セマンティックセグメンテーション
→ 同じクラスを区別できない
✅ インスタンスセグメンテーション（Mask R-CNN）
→ 同じクラスでも個体ごとに分ける

Faster R-CNN との違い

Faster R-CNN：
- 位置（Box）＋クラス
Mask R-CNN：
- 位置＋クラス＋マスク

選択肢の判断基準

「ピクセル単位」「マスクを出力」
→ Mask R-CNN
「高速」「リアルタイム」
→ YOLO 系
「領域全体をクラス分け」
→ セマンティックセグメンテーション

まとめ（試験直前用）

Mask R-CNN＝検出＋切り抜き
Faster R-CNN に マスク分岐を追加
RoI Align が重要キーワード
セマンティックセグメンテーションとは別物
「ピクセル単位で個体を区別」できたら Mask R-CNN

🔗 関連記事

🏠 G検トップに戻る