物体検出（Object Detection）とは？分類・セグメンテーションとの違い【G検定対策】 | AI・データサイエンス・IT学習ノート

最終更新日：2026年6月22日

gk cnn

G検定トップ＞物体検出（Object Detection）とは？分類・セグメンテーションとの違い【G検定対策】

まず結論

物体検出（Object Detection）は、画像や映像の中にある物体について、「何があるか（クラス）」と「どこにあるか（位置）」を同時に推定するタスクです。 G検定では、画像分類はクラスだけ、物体検出はクラス＋位置、セグメンテーションは領域までという切り分けが重要です。

直感的な説明

同じ犬の画像でも、AIに求める答えはタスクによって違います。

「犬が写っている」だけ答える → 画像分類
「犬が右下にいる」と枠で示す → 物体検出
「犬の形のピクセル領域」まで塗り分ける → セグメンテーション

物体検出は、物の名前を言いながら、指で場所を示すイメージです。複数の人や車が写っている場合も、それぞれの物体に対してクラスと位置を出します。

定義・仕組み

物体検出では、各物体について主に次を出力します。

クラス（例：人、車、犬）
位置（バウンディングボックス）
信頼度スコア

代表的なモデル・手法には、YOLO、SSD、Faster R-CNNなどがあります。G検定では詳細な実装よりも、検出タスクは分類と位置推定を組み合わせたものと押さえることが大切です。

いつ使う？（得意・不得意）

得意な場面

自動運転で歩行者や標識の位置を検出する
監視カメラで人や物体を見つける
工場や店舗で対象物の数や位置を把握する

苦手・注意点

ピクセル単位の正確な領域分割はセグメンテーションの役割
小さい物体、重なった物体、暗い画像では検出が難しくなることがある
「物体があるかどうか」だけでなく、位置情報の評価も必要になる

G検定ひっかけポイント

タスク	出力	見分けるキーワード
画像分類	画像全体のクラス	何が写っているか
物体検出	クラス＋バウンディングボックス	どこにあるか、枠で囲む
セマンティックセグメンテーション	クラスごとのピクセル領域	同じクラスをまとめて塗る
インスタンスセグメンテーション	個体ごとのピクセル領域	同じクラスの個体も分ける

「位置情報は含まれない」→ 物体検出の説明としては誤り
「ピクセル単位で領域を分割する」→ セグメンテーション寄り
「YOLO」「SSD」「Faster R-CNN」→ 物体検出の代表例
「クラスだけを出す」→ 画像分類

まとめ（試験直前用）

物体検出 = 分類 + 位置推定
出力は主に クラス、バウンディングボックス、信頼度
分類との違いは 位置情報の有無
セグメンテーションとの違いは ピクセル単位の領域まで出すか
YOLO / SSD / Faster R-CNN は物体検出の代表例

🔗 関連記事

🏠 G検トップに戻る