gk cnn neural_network
G検定トップ
> Mask R-CNN(インスタンスセグメンテーション)とは?G検定対策
まず結論
- Mask R-CNN とは、「物体検出(位置・クラス)」に加えてピクセル単位のマスク(形状)まで出力できるモデルである
- G検定では Faster R-CNNとの違い や セマンティックセグメンテーションとの区別 がよく問われる
直感的な説明
- Faster R-CNNは「ここに人がいる(四角で囲む)」まで
- Mask R-CNNは「このピクセル全部がこの人(切り抜き)」まで分かる
例えるなら:
- Faster R-CNN:写真の中の人を「赤枠」で囲む
- Mask R-CNN:その人を「背景から切り抜く」
G検定では
「枠だけか?ピクセル単位か?」を意識すると整理しやすい。
定義・仕組み
- Mask R-CNN は Faster R-CNN を拡張したモデル
- 構成は次の3つの出力を同時に行う
- Bounding Box(位置)
- Class(クラス分類)
- Mask(ピクセル単位の領域)
技術的なポイント:
- Faster R-CNN の RoI Pooling を RoI Align に置き換え
- 位置ずれを減らし、マスクの精度を向上させている
※ 数式は不要。
G検定では「RoI Align が Mask R-CNN の特徴」と分かれば十分。
いつ使う?(得意・不得意)
得意
- 人・車・物体の正確な形状が必要なタスク
- 医療画像、画像編集、精密な物体認識
- インスタンスセグメンテーション
不得意
- リアルタイム性が最重要な場面
(YOLO などの1段階検出の方が速い) - 単に「何があるか分かればよい」タスク
G検定ひっかけポイント
よくある混同
- ❌ セマンティックセグメンテーション
→ 同じクラスを区別できない - ✅ インスタンスセグメンテーション(Mask R-CNN)
→ 同じクラスでも個体ごとに分ける
Faster R-CNN との違い
- Faster R-CNN:
- 位置(Box)+クラス
- Mask R-CNN:
- 位置+クラス+マスク
選択肢の判断基準
- 「ピクセル単位」「マスクを出力」
→ Mask R-CNN - 「高速」「リアルタイム」
→ YOLO 系 - 「領域全体をクラス分け」
→ セマンティックセグメンテーション
まとめ(試験直前用)
- Mask R-CNN=検出+切り抜き
- Faster R-CNN に マスク分岐を追加
- RoI Align が重要キーワード
- セマンティックセグメンテーションとは別物
- 「ピクセル単位で個体を区別」できたら Mask R-CNN
🔗 関連記事
- CLIP(画像とテキストの対応付けモデル)とは?G検定対策
- PaLM(大規模言語モデル)とは?G検定対策
- PaLM-E(環境対応マルチモーダルモデル)とは?G検定対策
- TF-IDF・Word2Vec・BERTの違いとは?役割で整理するNLP基礎【G検定対策】
- A2C / A3C とは?(Actor–Critic の実装差)【G検定対策】
🏠 G検トップに戻る