gk cnn convolution
G検定トップ
> CNNの畳み込み層の出力サイズ
まず結論
- 畳み込み層の出力サイズは計算式で求められる
- パディング・カーネルサイズ・ストライドを必ず考慮する
- G検定では「数値をそのまま代入する問題」が頻出
直感的な説明
畳み込み層の出力サイズは、
どれだけ周りを埋めて(パディング) どれくらいの大きさの窓(カーネル)を どの間隔で動かすか(ストライド)
で決まります。
感覚的には、
- パディング:画像を大きくする
- カーネル:一度に見る範囲
- ストライド:飛ばしながら見る間隔
この 3つのバランス で出力サイズが決まります。
定義・計算式
出力サイズの基本式
1次元(縦・横それぞれ同じ計算)
出力サイズ = (入力サイズ + 2×パディング − カーネルサイズ) ÷ ストライド + 1
※ 割り算は 必ず割り切れる 形で問題が出ます。
今回の演習問題をそのまま解く
条件
- 入力サイズ:11 × 11
- パディング:2
- カーネルサイズ:3 × 3
- ストライド:2
計算
(11 + 2×2 − 3) ÷ 2 + 1
= (11 + 4 − 3) ÷ 2 + 1
= 12 ÷ 2 + 1
= 6 + 1
= 7
結果
- 出力サイズ:7 × 7
- 正解は 7
よくある間違いポイント(G検定ひっかけ)
- ❌ パディングを片側分(+2)しか足さない
- ❌ ストライドを掛け算で考える
- ❌ 「+1」を忘れる
- ❌ 出力サイズ=入力サイズ − カーネルサイズ と単純化する
👉 式を丸暗記して代入するのが最短ルート
試験での位置づけ
- CNNの基礎理解問題
- 計算問題として ほぼ毎回出題候補
- 深層学習の中でも 点を取りやすい分野
まとめ(試験直前用)
- 出力サイズは 決まった式 で求める
- パディングは 2倍
- 最後の +1 を忘れない
- G検定では 落ち着いて代入
🔗 関連記事
- AlexNet(ディープラーニング革命の起点)とは?G検定対策
- Atrous Convolution(拡張畳み込み)とは?【DeepLabで使われる理由|G検定対策】
- Atrous ConvolutionとPoolingの違いとは?【受容野と解像度の観点で整理|G検定対策】
- AutoAugment・RandAugment・TrivialAugmentの違い【画像データ拡張 完全比較|G検定対策】
- Brightness(明るさ調整)とは?【データ拡張|G検定対策】
🏠 G検トップに戻る