Skip to the content.

G検定トップ > Mask R-CNN(インスタンスセグメンテーション)とは?G検定対策

まず結論

  • Mask R-CNN とは、「物体検出(位置・クラス)」に加えてピクセル単位のマスク(形状)まで出力できるモデルである
  • G検定では Faster R-CNNとの違いセマンティックセグメンテーションとの区別 がよく問われる

直感的な説明

  • Faster R-CNNは「ここに人がいる(四角で囲む)」まで
  • Mask R-CNNは「このピクセル全部がこの人(切り抜き)」まで分かる

例えるなら:

  • Faster R-CNN:写真の中の人を「赤枠」で囲む
  • Mask R-CNN:その人を「背景から切り抜く」

G検定では
枠だけか?ピクセル単位か?」を意識すると整理しやすい。


定義・仕組み

  • Mask R-CNN は Faster R-CNN を拡張したモデル
  • 構成は次の3つの出力を同時に行う
  1. Bounding Box(位置)
  2. Class(クラス分類)
  3. Mask(ピクセル単位の領域)

技術的なポイント:

  • Faster R-CNN の RoI Pooling を RoI Align に置き換え
  • 位置ずれを減らし、マスクの精度を向上させている

※ 数式は不要。
G検定では「RoI Align が Mask R-CNN の特徴」と分かれば十分。


いつ使う?(得意・不得意)

得意

  • 人・車・物体の正確な形状が必要なタスク
  • 医療画像、画像編集、精密な物体認識
  • インスタンスセグメンテーション

不得意

  • リアルタイム性が最重要な場面
    (YOLO などの1段階検出の方が速い)
  • 単に「何があるか分かればよい」タスク

G検定ひっかけポイント

よくある混同

  • ❌ セマンティックセグメンテーション
    → 同じクラスを区別できない
  • ✅ インスタンスセグメンテーション(Mask R-CNN)
    → 同じクラスでも個体ごとに分ける

Faster R-CNN との違い

  • Faster R-CNN:
    • 位置(Box)+クラス
  • Mask R-CNN:
    • 位置+クラス+マスク

選択肢の判断基準

  • ピクセル単位」「マスクを出力
    → Mask R-CNN
  • 高速」「リアルタイム
    → YOLO 系
  • 領域全体をクラス分け
    → セマンティックセグメンテーション

まとめ(試験直前用)

  • Mask R-CNN=検出+切り抜き
  • Faster R-CNN に マスク分岐を追加
  • RoI Align が重要キーワード
  • セマンティックセグメンテーションとは別物
  • 「ピクセル単位で個体を区別」できたら Mask R-CNN

🔗 関連記事


🏠 G検トップに戻る