(VGG) Very Deep Convolutional Networks for Large-Scale Image Recognition
๐ ์ถ์ฒ
https://arxiv.org/abs/1409.1556
๐งฉ ๋ฐฉ๋ฒ๋ก
by โฆ
๐ก ์ฐธ๊ณ : (๋ถ๊ฐ ์ค๋ช ์์ฑ)
๐ ๋ ผ๋ฌธ
๐ก ์์ฝ
by Gemini
1. ๊น์ด(Depth)์ ์ค์์ฑ ๊ฐ์กฐ
์ด ์ฐ๊ตฌ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๊ธฐ์ฌ๋ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ(ConvNet)์ ๊น์ด๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ๋ค๋ฅธ ์ํคํ ์ฒ ๋งค๊ฐ๋ณ์๋ค์ ๊ณ ์ ํ ์ฑ, ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ์ ์ง์ ์ผ๋ก ์ถ๊ฐํ์ฌ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ 11๊ฐ์์ 19๊ฐ์ ๊ฐ์ค์น ๋ ์ด์ด๊น์ง ๋๋ ธ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๊น์ด์ง์๋ก ๋ถ๋ฅ ์ค๋ฅ๊ฐ ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์์ผ๋ฉฐ, ์ด๋ ๊น์ด๊ฐ ์ด๋ฏธ์ง ์ธ์ ์ฑ๋ฅ์ ๋งค์ฐ ์ค์ํ ์์์์ ์ ์ฆํฉ๋๋ค.
2. 3ร3์ ์์ ์ปจ๋ณผ๋ฃจ์ ํํฐ ์ฌ์ฉ
VGG Net์ ์ฃผ์ ์ํคํ ์ฒ ์ค๊ณ ์์น์ ์ ์ฒด ๋คํธ์ํฌ์ ๊ฑธ์ณ ๋งค์ฐ ์์
3ร3 ์ปจ๋ณผ๋ฃจ์ ํํฐ๋ฅผ ์ผ๊ด๋๊ฒ ์ฌ์ฉํ ๊ฒ์ ๋๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ๊ฐ์ง๋๋ค:
ํจ๊ณผ์ ์ธ ์์ฉ ์์ญ(Receptive Field) ํ์ฅ: 3ร3 ํํฐ ๋ ๊ฐ๋ฅผ ์์ผ๋ฉด 5ร5 ํํฐ ํ๋์ ์์ฉ ์์ญ๊ณผ ๋์ผํ๊ณ , ์ธ ๊ฐ๋ฅผ ์์ผ๋ฉด 7ร7 ํํฐ ํ๋์ ์์ฉ ์์ญ๊ณผ ๋์ผํ ํจ๊ณผ๋ฅผ ๋ ๋๋ค.
๋น์ ํ์ฑ ์ฆ๊ฐ: ์ฌ๋ฌ ๊ฐ์ ๋ ์ด์ด๋ฅผ ์์ผ๋ฉด์ ๋ ๋ง์ ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๊ฒ ๋์ด ๊ฒฐ์ ํจ์(decision function)๋ฅผ ๋ ํ๋ณ๋ ฅ ์๊ฒ ๋ง๋ญ๋๋ค.
ํ๋ผ๋ฏธํฐ ์ ๊ฐ์: ํ๋์ ํฐ ํํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ฌ๋ฌ ๊ฐ์ ์์ ํํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ฌ์ค๋๋ค. ์๋ฅผ ๋ค์ด, 3๊ฐ์
3ร3 ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ 1๊ฐ์ 7ร7 ๋ ์ด์ด๋ณด๋ค ํ๋ผ๋ฏธํฐ ์๊ฐ 81% ๋ ์ ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๋ ์ ๊ทํ(regularisation) ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ต๋๋ค.
3. ์ผ๊ด๋ ๋คํธ์ํฌ ๊ตฌ์ฑ
VGG Net์ ๊น์ด๋ฅผ ์ ์ธํ๊ณ ๋ ๋งค์ฐ ์ผ๊ด๋๊ณ ๊ฐ๋จํ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฆ ๋๋ค.
์ ๋ ฅ: ํ๋ จ ์ค์๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ 224ร224 RGB ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ ์ผํ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ํ๋ จ ์ธํธ์ ํ๊ท RGB ๊ฐ์ ๊ฐ ํฝ์ ์์ ๋นผ๋ ๊ฒ์ ๋๋ค.
์ปจ๋ณผ๋ฃจ์ ๋ฐ ํ๋ง: 3ร3 ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด ์คํ ๋ค์ 2ร2 ๋งฅ์ค ํ๋ง(max-pooling) ๋ ์ด์ด๊ฐ ์ด์ด์ง๋ ๊ตฌ์กฐ๊ฐ ๋ฐ๋ณต๋ฉ๋๋ค. ๋งฅ์ค ํ๋ง์ ๊ฑฐ์น ๋๋ง๋ค ์ฑ๋ ์๋ 2๋ฐฐ์ฉ ์ฆ๊ฐํ์ฌ 512๊ฐ๊น์ง ๋์ด๋ฉ๋๋ค.
์์ ์ฐ๊ฒฐ ๋ ์ด์ด(Fully-Connected Layers): ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด ์คํ ๋ค์์๋ 3๊ฐ์ ์์ ์ฐ๊ฒฐ ๋ ์ด์ด๊ฐ ์์นํฉ๋๋ค. ์ฒ์ ๋ ๋ ์ด์ด๋ ๊ฐ๊ฐ 4096๊ฐ์ ์ฑ๋์ ๊ฐ์ง๋ฉฐ, ๋ง์ง๋ง ๋ ์ด์ด๋ 1000๊ฐ์ ํด๋์ค๋ฅผ ๋ถ๋ฅํ๊ธฐ ์ํ 1000๊ฐ์ ์ฑ๋์ ๊ฐ์ง๋๋ค.
4. ํ๋ จ ๋ฐ ํ๊ฐ ๊ธฐ๋ฒ
ํ๋ จ(Training): ํ๋ จ์ ๋ชจ๋ฉํ (momentum)์ ์ฌ์ฉํ ๋ฏธ๋๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(mini-batch gradient descent)์ผ๋ก ์ํ๋ฉ๋๋ค. ์ ๊ทํ๋ฅผ ์ํด ๊ฐ์ค์น ๊ฐ์(weight decay, L2 ํ๋ํฐ)์ ์ฒ์ ๋ ๊ฐ์ ์์ ์ฐ๊ฒฐ ๋ ์ด์ด์ ๋๋กญ์์(dropout)์ด ์ ์ฉ๋์์ต๋๋ค.
๊ฐ์ค์น ์ด๊ธฐํ: ๊น์ ๋คํธ์ํฌ์ ๋ถ์์ ํ ๊ธฐ์ธ๊ธฐ(gradient) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋์ ์ผ๋ก ์์ ๋คํธ์ํฌ(A)๋ฅผ ๋จผ์ ๋ฌด์์ ์ด๊ธฐํ๋ก ํ๋ จ์ํจ ํ, ๋ ๊น์ ์ํคํ ์ฒ์ ์ด๊ธฐ ๋ ์ด์ด๋ค์ ์ด ์์ ๋คํธ์ํฌ์ ๊ฐ์ค์น๋ก ์ด๊ธฐํํ์ต๋๋ค.
์ค์ผ์ผ ์งํฐ๋ง(Scale Jittering): ํ๋ จ ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์์ ๋ณ์ ๊ธธ์ด๋ฅผ ํน์ ๋ฒ์([Sminโ,Smaxโ]) ๋ด์์ ๋ฌด์์๋ก ์ํ๋งํ์ฌ ๋ฆฌ์ค์ผ์ผ๋งํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์ธ์ํ๋๋ก ํ๋ จํ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ(augmentation) ๊ธฐ๋ฒ์ผ๋ก, ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค.
ํ ์คํธ(Testing): ํ ์คํธ ์์๋ ์์ ์ฐ๊ฒฐ ๋ ์ด์ด๋ฅผ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ๋ณํํ์ฌ(fully-convolutional), ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํด ์กฐ๋ฐํ๊ฒ(densely) ๋คํธ์ํฌ๋ฅผ ์ ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋ฌ ํฌ๋กญ(crop)์ ์๋ผ๋ด์ด ๊ฐ๊ฐ ํ๊ฐํ๋ ๋ฐฉ์๋ณด๋ค ํจ์จ์ ์ผ๋ก ํ๊ฐ๋ฅผ ์ํํ ์ ์์ต๋๋ค. ๋ํ, ์ฌ๋ฌ ํ ์คํธ ์ค์ผ์ผ(Q)์ ๋ํด ํ๊ฐํ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋ด์ด ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค. ๐ก ์ฐธ๊ณ : (์์ฝ ๋ณด์ถฉ ์ค๋ช )
๐ ์ ๋ฆฌ
๐ ์ ๋ชฉ
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
Authors: Karen Simonyan, Andrew Zisserman
๋ฒ์ญ
๋๊ท๋ชจ ์ด๋ฏธ์ง ์ธ์์ ์ํ ๋งค์ฐ ๊น์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(Very Deep Convolutional Networks for Large-Scale Image Recognition)
๐ ์ด๋ก
๋ฒ์ญ
๋ณธ ์ฐ๊ตฌ์์๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(Convolutional Network)์ ๊น์ด๊ฐ ๋๊ท๋ชจ ์ด๋ฏธ์ง ์ธ์ ์ ํ๋์ ๋ฏธ์น๋ ์ํฅ์ ์กฐ์ฌํ๋ค. ์ฐ๋ฆฌ์ ์ฃผ์ ๊ธฐ์ฌ๋ ๋งค์ฐ ์์ (3ร3) ํฉ์ฑ๊ณฑ ํํฐ๋ฅผ ์ฌ์ฉํ๋ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ๋คํธ์ํฌ ๊น์ด๋ฅผ 16โ19๊ฐ์ ๊ฐ์ค์น ์ธต์ผ๋ก ํ์ฅํจ์ผ๋ก์จ ๊ธฐ์กด ์ต์ฒจ๋จ ๊ตฌ์ฑ๋ณด๋ค ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ผ ์ ์์์ ์ฒ ์ ํ ํ๊ฐํ ๊ฒ์ด๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ์ฐ๋ฆฌ๊ฐ ImageNet Challenge 2014์ ์ ์ถํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ด ๋์์ผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ๋ถ๋ฅ(classification)์ ์์น ์ถ์ (localisation) ํธ๋์์ ๊ฐ๊ฐ 2์์ 1์๋ฅผ ์ฐจ์งํ๋ค. ๋ํ, ์ฐ๋ฆฌ์ ํํ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ์ ์ผ๋ฐํ๋์ด ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํจ์ ๋ณด์๋ค. ์ฐ๋ฆฌ๋ ์ฌ์ธต ์๊ฐ ํํ ์ฐ๊ตฌ๋ฅผ ์ด์งํ๊ธฐ ์ํด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ ๊ฐ์ง ConvNet ๋ชจ๋ธ์ ๊ณต๊ฒํ๋ค.
๋ด์ฉ
- CNN์ ๊น์ด๊ฐ ๋๊ท๋ชจ ์ด๋ฏธ์ง ์ธ์ ์ ํ๋์ ๋ฏธ์น๋ ์ํฅ ์กฐ์ฌ -> 16-19์ธต์ผ๋ก ํ์ฅํ์ฌ ์ฑ๋ฅ ํฅ์
- ์์ ์ปค๋(3x3)
์ฃผ์ ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโ | โโโโโโโโโโโโโโโโโ | | ๋ฐ์ดํฐ์ | ImageNet (ILSVRC 2014) | | ๋ชจ๋ธ ๊ตฌ์กฐ | 3ร3 ํฉ์ฑ๊ณฑ ํํฐ ๊ธฐ๋ฐ, ๊น์ด 16~19์ธต | | ํ์ต ๋ฐฉ๋ฒ | ๊ธฐ์กด ConvNet ํ๋ จ ์ ์ฐจ ๊ธฐ๋ฐ | | ํ๊ฐ ์งํ | Classification/Localization Error (Top-1, Top-5) | | ๊ฒฐ๊ณผ ํด์ | ๊น์ด ์ฆ๊ฐ๊ฐ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง, ์ผ๋ฐํ ์ฑ๋ฅ ์ฐ์ |
๐ ์๋ก & ๊ฒฐ๋ก & ๊ณ ์ฐฐ
๋ฒ์ญ
์๋ก
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(ConvNets)์ ์ต๊ทผ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์ธ์์์ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์๋๋ฐ(Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014; Simonyan & Zisserman, 2014), ์ด๋ ImageNet(Deng et al., 2009)๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๊ณต๊ฐ ์ด๋ฏธ์ง ์ ์ฅ์์ GPU ๋๋ ๋๊ท๋ชจ ๋ถ์ฐ ํด๋ฌ์คํฐ(Dean et al., 2012)์ ๊ฐ์ ๊ณ ์ฑ๋ฅ ์ปดํจํ ์์คํ ๋๋ถ์ ๊ฐ๋ฅํด์ก๋ค. ํนํ, ImageNet Large-Scale Visual Recognition Challenge (ILSVRC, Russakovsky et al., 2014)๋ ๊ณ ์ฐจ์ ์์ ํน์ง ์ธ์ฝ๋ฉ(Perronnin et al., 2010, ILSVRC-2011 ์ฐ์น)๋ถํฐ ์ฌ์ธต ConvNets(Krizhevsky et al., 2012, ILSVRC-2012 ์ฐ์น)๊น์ง ์ฌ๋ฌ ์ธ๋์ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์คํ ์ ์ํ๋๋ก์ ์ค์ํ ์ญํ ์ ํด์๋ค.
ConvNets๊ฐ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ ์ฐจ ๋ณดํธํ๋๋ฉด์, Krizhevsky et al. (2012)์ ์๋ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ ํ์ฌ ๋ ๋์ ์ ํ๋๋ฅผ ์ป์ผ๋ ค๋ ์๋๊ฐ ์ด๋ฃจ์ด์ก๋ค. ์๋ฅผ ๋ค์ด, ILSVRC-2013์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ ์ ์ถ์๋ค์ ์ฒซ ๋ฒ์งธ ํฉ์ฑ๊ณฑ ์ธต์ ์์ฉ์์ญ ํฌ๊ธฐ(receptive window size)๋ฅผ ๋ ์๊ฒ ํ๊ณ stride๋ฅผ ์ค์๋ค(Zeiler & Fergus, 2013; Sermanet et al., 2014). ๋ ๋ค๋ฅธ ๊ฐ์ ๋ฐฉํฅ์ ๋คํธ์ํฌ๋ฅผ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ค์ค ์ค์ผ์ผ์์ ์กฐ๋ฐํ๊ฒ ํ์ต ๋ฐ ํ ์คํธํ๋ ๊ฒ์ด์๋ค(Sermanet et al., 2014; Howard, 2014). ๋ณธ ๋ ผ๋ฌธ์์๋ ConvNet ์ํคํ ์ฒ ์ค๊ณ์ ๋ ๋ค๋ฅธ ์ค์ํ ์ธก๋ฉด์ธ ๊น์ด(depth)์ ์ด์ ์ ๋ง์ถ๋ค. ์ด๋ฅผ ์ํด ์ํคํ ์ฒ์ ๋ค๋ฅธ ๋งค๊ฐ๋ณ์๋ค์ ๊ณ ์ ํ๊ณ , ๋ชจ๋ ์ธต์์ ๋งค์ฐ ์์ (3ร3) ํฉ์ฑ๊ณฑ ํํฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ์ ์ฐจ ํฉ์ฑ๊ณฑ ์ธต์ ์ถ๊ฐํ์ฌ ๋คํธ์ํฌ ๊น์ด๋ฅผ ๋๋ฆฐ๋ค.
๊ทธ ๊ฒฐ๊ณผ, ์ฐ๋ฆฌ๋ ILSVRC ๋ถ๋ฅ ๋ฐ ์์น ์ถ์ ์์ ์์ ์ต์ฒจ๋จ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ๋ฟ๋ง ์๋๋ผ, ๋ค๋ฅธ ์ด๋ฏธ์ง ์ธ์ ๋ฐ์ดํฐ์ ์๋ ์ ์ฉ ๊ฐ๋ฅํ ์๋นํ ๋ ์ ํํ ConvNet ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ค. ์ฌ์ง์ด ๋น๊ต์ ๋จ์ํ ํ์ดํ๋ผ์ธ(์: ์ฌ์ธต ํน์ง์ ์ ํ SVM์ผ๋ก ๋ถ๋ฅ, ๋ฏธ์ธ์กฐ์ ์์ด)์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ค. ์ฐ๋ฆฌ๋ ์ฐ๊ตฌ ์ด์ง์ ์ํด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ ๊ฐ์ง ๋ชจ๋ธ์ ๊ณต๊ฐํ๋ค.
๊ฒฐ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ์ต๋ 19๊ฐ์ ๊ฐ์ค์น ์ธต์ ๊ฐ์ง ๋งค์ฐ ๊น์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ํํ์ ๊น์ด๊ฐ ๋ถ๋ฅ ์ ํ๋ ํฅ์์ ์ ๋ฆฌํ๋ฉฐ, ๊ธฐ์กด ConvNet ์ํคํ ์ฒ(LeCun et al., 1989; Krizhevsky et al., 2012)์ ๊ตฌ์กฐ๋ฅผ ํฌ๊ฒ ํ์ฅํ๋ ๊ฒ๋ง์ผ๋ก๋ ImageNet ์ฑ๋ฆฐ์ง ๋ฐ์ดํฐ์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์๋ค. ๋ํ ๋ถ๋ก์์๋, ์ ์ํ ๋ชจ๋ธ์ด ์์ ์๊ฐ ํํ์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ ๋ณต์กํ ์ธ์ ํ์ดํ๋ผ์ธ๊ณผ ๋น๊ตํด๋ ๋์ผํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๋ค์ํ ์์ ๊ณผ ๋ฐ์ดํฐ์ ์ ์ ์ผ๋ฐํ๋จ์ ๋ณด์๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์๊ฐ ํํ์์ ๊น์ด์ ์ค์์ฑ์ ๋ค์ ํ ๋ฒ ํ์ธ์์ผ์ค๋ค.
๋ด์ฉ
- AlexNet์ ๊ฐ์ ๋ฐฉํฅ
- ์ฒซ ๋ฒ์งธ conv์ win.์ ๋ ์๊ฒํ๊ณ , stride๋ฅผ ์ค์
- ์ด๋ฏธ์ง ์ ์ฒด์ ๋ค์ค ์ค์ผ์ผ์์ ์กฐ๋ฐํ๊ฒ ํ์ต ๋ฐ ํ ์คํธ
- ๋ณธ ๋ ผ๋ฌธ์ ๊น์ด์ ์ด์ ์ ๋ง์ถค, ๋ฐ๋ผ์ ๋ค๋ฅธ ๋งค๊ฐ๋ณ์๋ค์ ๊ณ ์ ํ๊ณ , ๋ชจ๋ ์ธต์์ ๋งค์ฐ ์์ ์ปค๋์ ์ฌ์ฉํ๊ณ , layer์ ์ถ๊ฐํ์ฌ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ๋๋ฆฐ๋ค.
- ํํ์ ๊น์ด์ ์ฆ๊ฐ๊ฐ ๊ฒฐ๋ก ์ ์ผ๋ก ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๊ฒ ๋จ
- ๋ถ๋ฅ ์ ํ๋ ํฅ์์ ์ ๋ฆฌ
- AlexNet์ ๊น์ด๋ฅผ ํ์ฅํ๋ ๊ฒ๋ง์ผ๋ก๋ ์ฑ๋ฅ์ด ๋์์ง
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโ | โโโโโโโโโโโโโโโโโโโ | | ๋ฐ์ดํฐ์ | ImageNet (ILSVRC 2012โ2014) | | ๋ชจ๋ธ ๊ตฌ์กฐ | 3ร3 ํํฐ ๊ธฐ๋ฐ, 16โ19์ธต ConvNet | | ํ์ต ๋ฐฉ๋ฒ | ๊ธฐ์กด ConvNet ํ์ต ํ๋กํ ์ฝ ์ ์ง, ๊น์ด๋ง ํ์ฅ | | ํ๊ฐ ์งํ | Top-1, Top-5 error (classification), localisation error | | ๊ฒฐ๊ณผ ํด์ | ๊น์ด๊ฐ ์ฑ๋ฅ ํฅ์ ํต์ฌ, ๋ณต์กํ ๊ตฌ์กฐ ์์ด๋ ์ฑ๋ฅ ๊ฐ์ ๊ฐ๋ฅ |
๐ฌ ์คํ๊ณผ์
๐ 2. CONVNET CONFIGURATIONS
๋ฒ์ญ
ConvNet ๊น์ด๋ฅผ ์ฆ๊ฐ์ํด์ผ๋ก์จ ๋ฐ์ํ๋ ๊ฐ์ ํจ๊ณผ๋ฅผ ๊ณต์ ํ๊ฒ ์ธก์ ํ๊ธฐ ์ํด, ์ฐ๋ฆฌ์ ConvNet ์ธต ๊ตฌ์ฑ์ ๋ชจ๋ ๋์ผํ ์์น์ ๋ฐ๋ฅธ๋ค(Ciresan et al., 2011; Krizhevsky et al., 2012์์ ์๊ฐ์ ๋ฐ์). ๋ณธ ์ฅ์์๋ ๋จผ์ ConvNet ๊ตฌ์ฑ์ ์ผ๋ฐ์ ์ธ ๋ ์ด์์์ ์ค๋ช (2.1์ )ํ๊ณ , ์ด์ด์ ํ๊ฐ์ ์ฌ์ฉ๋ ๊ตฌ์ฒด์ ์ธ ๊ตฌ์ฑ๋ค์ ์์ธํ ์ค๋ช (2.2์ )ํ๋ค. ๋ง์ง๋ง์ผ๋ก ์ฐ๋ฆฌ์ ์ค๊ณ ์ ํ์ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋น๊ตํ์ฌ ๋ ผ์ํ๋ค(2.3์ ).
2.1. Architecture
ํ๋ จ ๊ณผ์ ์์ ConvNet์ ์ ๋ ฅ์ ๊ณ ์ ํฌ๊ธฐ 224 ร 224 RGB ์ด๋ฏธ์ง์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ํํ๋ ์ ์ฒ๋ฆฌ๋ ํ๋ จ ์ธํธ์์ ๊ณ์ฐ๋ ํ๊ท RGB ๊ฐ์ ๊ฐ ํฝ์ ์์ ๋นผ๋ ๊ฒ๋ฟ์ด๋ค. ์ด๋ฏธ์ง๋ ํฉ์ฑ๊ณฑ(convolutional, conv.) ์ธต์ ์คํ์ ๊ฑฐ์น๋ฉฐ, ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ๋งค์ฐ ์์ ์์ฉ์์ญ(receptive field)์ ๊ฐ์ง 3 ร 3 ํํฐ๋ฅผ ์ฌ์ฉํ๋ค(์ด๋ ์ข/์ฐ, ์/ํ, ์ค์์ ๊ฐ๋ ์ ํฌ์ฐฉํ ์ ์๋ ์ต์ ํฌ๊ธฐ์ด๋ค). ํ๋์ ์ค์ ์์๋ 1 ร 1 ํฉ์ฑ๊ณฑ ํํฐ๋ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ์ ๋ ฅ ์ฑ๋์ ๋ํ ์ ํ ๋ณํ(๋น์ ํ์ฑ์ด ๋ค๋ฐ๋ฆ)์ผ๋ก ๋ณผ ์ ์๋ค. ํฉ์ฑ๊ณฑ stride๋ 1 ํฝ์ ๋ก ๊ณ ์ ๋๋ฉฐ, ํฉ์ฑ๊ณฑ ์ธต ์ ๋ ฅ์ ๊ณต๊ฐ ํจ๋ฉ์ ํฉ์ฑ๊ณฑ ํ์๋ ๊ณต๊ฐ ํด์๋๊ฐ ๋ณด์กด๋๋๋ก ์ค์ ๋๋ค. ์ฆ, 3ร3 ํฉ์ฑ๊ณฑ ์ธต์ ๊ฒฝ์ฐ ํจ๋ฉ์ 1 ํฝ์ ์ด๋ค. ๊ณต๊ฐ ํ๋ง์ ๋ค์ฏ ๊ฐ์ ์ต๋ ํ๋ง(max-pooling) ์ธต์์ ์ํ๋๋ฉฐ, ์ด๋ ์ผ๋ถ ํฉ์ฑ๊ณฑ ์ธต ๋ค์ ๋ฐฐ์น๋๋ค(๋ชจ๋ ํฉ์ฑ๊ณฑ ์ธต ๋ค์ ๋ฐฐ์น๋๋ ๊ฒ์ ์๋๋ค). ์ต๋ ํ๋ง์ 2ร2 ํฝ์ ์๋์ฐ์ ๋ํด stride 2๋ก ์ํ๋๋ค.
ํฉ์ฑ๊ณฑ ์ธต ์คํ(์ํคํ ์ฒ๋ง๋ค ๊น์ด๊ฐ ๋ค๋ฅด๋ค)์ ์ธ ๊ฐ์ ์์ ์ฐ๊ฒฐ(Fully-Connected, FC) ์ธต์ ์ํด ์ด์ด์ง๋ค. ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ FC ์ธต์ ๊ฐ๊ฐ 4096 ์ฑ๋์ ๊ฐ์ง๊ณ , ์ธ ๋ฒ์งธ FC ์ธต์ 1000-ํด๋์ค ILSVRC ๋ถ๋ฅ๋ฅผ ์ํํ๋ฏ๋ก 1000 ์ฑ๋(๊ฐ ํด๋์ค๋น ํ๋์ฉ)์ ๊ฐ์ง๋ค. ๋ง์ง๋ง ์ธต์ soft-max ์ธต์ด๋ค. ์์ ์ฐ๊ฒฐ ์ธต์ ๊ตฌ์ฑ์ ๋ชจ๋ ๋คํธ์ํฌ์์ ๋์ผํ๋ค.
๋ชจ๋ ์๋์ธต์ ์ ๋ฅ(Rectification) ๋น์ ํ์ฑ(ReLU (Krizhevsky et al., 2012))์ ์ฌ์ฉํ๋ค. ์ฃผ๋ชฉํ ์ ์ (ํ๋์ ์์ธ๋ฅผ ์ ์ธํ๊ณ ) ์ฐ๋ฆฌ์ ๋คํธ์ํฌ๋ค์ Local Response Normalisation (LRN) ์ ๊ทํ๋ฅผ ํฌํจํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค(Krizhevsky et al., 2012). ์ด๋ 4์ฅ์์ ๋ณด์ฌ์ฃผ๋ฏ์ด ILSVRC ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋์ง ์์ผ๋ฉฐ, ์คํ๋ ค ๋ฉ๋ชจ๋ฆฌ ์๋น์ ๊ณ์ฐ ์๊ฐ์ ์ฆ๊ฐ์ํค๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ํ ๊ฒฝ์ฐ LRN ์ธต์ ํ๋ผ๋ฏธํฐ๋ (Krizhevsky et al., 2012)์ ๋์ผํ๋ค.
2.2. Configurations
์ด ๋ ผ๋ฌธ์์ ํ๊ฐ๋ ConvNet ๊ตฌ์ฑ์ ํ 1์ ๊ฐ ์ด(column)๋ณ๋ก ์์ฝ๋์ด ์๋ค. ์ดํ ๋คํธ์ํฌ๋ค์ ์ด๋ฆ(AโE)์ผ๋ก ์ง์นญ๋๋ค. ๋ชจ๋ ๊ตฌ์ฑ์ 2.1์ ์์ ์ค๋ช ํ ์ผ๋ฐ์ ์ธ ์ค๊ณ๋ฅผ ๋ฐ๋ฅด๋ฉฐ, ์ฐจ์ด์ ์ ๊น์ด์ ์๋ค: ๋คํธ์ํฌ A๋ 11๊ฐ์ ๊ฐ์ค์น ์ธต(ํฉ์ฑ๊ณฑ 8๊ฐ์ FC 3๊ฐ), ๋คํธ์ํฌ E๋ 19๊ฐ์ ๊ฐ์ค์น ์ธต(ํฉ์ฑ๊ณฑ 16๊ฐ์ FC 3๊ฐ)์ ๊ฐ์ง๋ค. ํฉ์ฑ๊ณฑ ์ธต์ ๋๋น(์ฑ๋ ์)๋ ๋น๊ต์ ์์ผ๋ฉฐ, ์ฒซ ๋ฒ์งธ ์ธต์์ 64๋ก ์์ํด ๊ฐ ์ต๋ ํ๋ง ์ธต ์ดํ ๋ ๋ฐฐ๋ก ์ฆ๊ฐํ์ฌ ์ต์ข ์ ์ผ๋ก 512์ ์ด๋ฅธ๋ค ํ 2์๋ ๊ฐ ๊ตฌ์ฑ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ณด๊ณ ๋์ด ์๋ค. ๊น์ด๊ฐ ์๋นํ ๊น์์๋ ๋ถ๊ตฌํ๊ณ , ์ฐ๋ฆฌ์ ๋คํธ์ํฌ์์ ํ๋ผ๋ฏธํฐ ์๋ ๋ ์์ ๋คํธ์ํฌ๊ฐ ๋ ํฐ ํฉ์ฑ๊ณฑ ์ธต ๋๋น์ ์์ฉ์์ญ์ ์ฌ์ฉํ ๋๋ณด๋ค ๋ง์ง ์๋ค(์: (Sermanet et al., 2014)์ 1์ต 4400๋ง ๊ฐ ํ๋ผ๋ฏธํฐ).
2.3. Discussion
์ฐ๋ฆฌ์ ConvNet ๊ตฌ์ฑ์ ILSVRC-2012 (Krizhevsky et al., 2012)์ ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014) ๋ํ์ ์์ ์ ์ถ์๋ค๊ณผ๋ ์๋นํ ๋ค๋ฅด๋ค. ๊ทธ๋ค์ ์ฒซ ๋ฒ์งธ ํฉ์ฑ๊ณฑ ์ธต์์ ๋น๊ต์ ํฐ ์์ฉ์์ญ์ ์ฌ์ฉํ๋๋ฐ(์: Krizhevsky et al., 2012๋ 11ร11 stride 4, Zeiler & Fergus, 2013 ๋ฐ Sermanet et al., 2014๋ 7ร7 stride 2), ์ฐ๋ฆฌ๋ ์ ์ฒด ๋คํธ์ํฌ์์ ๋งค์ฐ ์์ 3ร3 ์์ฉ์์ญ์ ์ฌ์ฉํ๋ฉฐ, ์ ๋ ฅ์ ๋ชจ๋ ํฝ์ ์์ stride 1๋ก ํฉ์ฑ๊ณฑ์ ์ํํ๋ค. ๋ ๊ฐ์ 3ร3 ํฉ์ฑ๊ณฑ ์ธต์ ์์ผ๋ฉด(์ค๊ฐ์ ๊ณต๊ฐ ํ๋ง ์์) ํจ๊ณผ์ ์ธ ์์ฉ์์ญ์ 5ร5๊ฐ ๋๋ฉฐ, ์ธ ๊ฐ๋ฅผ ์์ผ๋ฉด 7ร7 ์์ฉ์์ญ์ด ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ๋จ์ผ 7ร7 ์ธต ๋์ ์ธ ๊ฐ์ 3ร3 ์ธต์ ์์์ผ๋ก์จ ์ป๋ ๊ฒ์ ๋ฌด์์ธ๊ฐ? ์ฒซ์งธ, ๋น์ ํ ์ ๋ฅ์ธต์ด ํ๋๊ฐ ์๋ ์ธ ๊ฐ๊ฐ ํฌํจ๋์ด ์์ฌ๊ฒฐ์ ํจ์๊ฐ ๋ ํ๋ณ๋ ฅ์ด ๋์์ง๋ค. ๋์งธ, ํ๋ผ๋ฏธํฐ ์๊ฐ ์ค์ด๋ ๋ค. ์๋ฅผ ๋ค์ด ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๋ชจ๋ C ์ฑ๋์ผ ๋, ์ธ ์ธต์ 3ร3 ํฉ์ฑ๊ณฑ ์คํ์ 3(3^2C^2) = 27C^2๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง์ง๋ง, ๋จ์ผ 7ร7 ์ธต์ 7^2C^2 = 49C^2๊ฐ๋ฅผ ํ์๋ก ํ๋ค. ์ฆ, 81% ๋ ๋ง๋ค. ์ด๋ 7ร7 ํฉ์ฑ๊ณฑ ํํฐ์ ๋ํด 3ร3 ํํฐ๋ฅผ ํตํ ๋ถํด(์ค๊ฐ์ ๋น์ ํ์ฑ ํฌํจ)๋ฅผ ๊ฐ์ ํ๋ ์ผ์ข ์ ์ ๊ทํ๋ก ๋ณผ ์ ์๋ค.
1ร1 ํฉ์ฑ๊ณฑ ์ธต์ ๋์ (๊ตฌ์ฑ C, ํ 1)์ ํฉ์ฑ๊ณฑ ์ธต์ ์์ฉ์์ญ์ ์ํฅ์ ์ฃผ์ง ์๊ณ ์์ฌ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ์ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฐ๋ฆฌ์ ๊ฒฝ์ฐ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์ฑ๋ ์๊ฐ ๊ฐ์ผ๋ฏ๋ก 1ร1 ํฉ์ฑ๊ณฑ์ ๋ณธ์ง์ ์ผ๋ก ๋์ผ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก์ ์ ํ ํฌ์์ด์ง๋ง, ์ ๋ฅ ํจ์์ ์ํด ๋น์ ํ์ฑ์ด ์ถ๊ฐ๋๋ค. 1ร1 ํฉ์ฑ๊ณฑ ์ธต์ ์ต๊ทผ Lin et al. (2014)์ โNetwork in Networkโ ์ํคํ ์ฒ์์๋ ์ฌ์ฉ๋์๋ค.
์์ ํฌ๊ธฐ์ ํฉ์ฑ๊ณฑ ํํฐ๋ ์ด์ ์ Ciresan et al. (2011)์ ์ํด ์ฌ์ฉ๋์์ง๋ง, ๊ทธ๋ค์ ๋คํธ์ํฌ๋ ์ฐ๋ฆฌ ๊ฒ๋ณด๋ค ํจ์ฌ ์์์ผ๋ฉฐ ๋๊ท๋ชจ ILSVRC ๋ฐ์ดํฐ์ ์ ๋ํด ํ๊ฐํ์ง ์์๋ค. Goodfellow et al. (2014)๋ 11์ธต ๋ฅ ConvNet์ ๊ฑฐ๋ฆฌ ๋ฒํธ ์ธ์(street number recognition) ๊ณผ์ ์ ์ ์ฉํ์ฌ ๊น์ด๊ฐ ์ฆ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์๋ค. GoogLeNet (Szegedy et al., 2014)์ ILSVRC-2014 ๋ถ๋ฅ ๊ณผ์ ์ ์์ ์ ์ถ์์ผ๋ก, ๋ ๋ฆฝ์ ์ผ๋ก ๊ฐ๋ฐ๋์์ง๋ง ๋งค์ฐ ๊น์ ConvNet(22์ธต)๊ณผ ์์ ํฉ์ฑ๊ณฑ ํํฐ(3ร3๋ฟ ์๋๋ผ 1ร1, 5ร5 ์ฌ์ฉ)์ ๊ธฐ๋ฐํ๋ค๋ ์ ์์ ์ ์ฌํ๋ค. ๊ทธ๋ฌ๋ GoogLeNet์ ๋คํธ์ํฌ ํ ํด๋ก์ง๋ ์ฐ๋ฆฌ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ณต์กํ๋ฉฐ, ์ฐ์ฐ๋์ ์ค์ด๊ธฐ ์ํด ์ด๊ธฐ ์ธต์์ feature map์ ๊ณต๊ฐ ํด์๋๋ฅผ ๋ ๊ณต๊ฒฉ์ ์ผ๋ก ์ค์ธ๋ค. 4.5์ ์์ ๋ณด์ด๋ฏ์ด, ๋จ์ผ ๋คํธ์ํฌ ๋ถ๋ฅ ์ ํ๋ ์ธก๋ฉด์์ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ Szegedy et al. (2014)์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ค.
๋ด์ฉ
- ์คํ ๋ชฉํ : ํพ์ด๋ฅผ ์ฆ๊ฐ์ํด์ผ๋ก์ ๋ฐ์ํ๋ ๊ฐ์ ํจ๊ณผ ์ธก์
2.1. Architecture
- input : 224x224 RGB
- ์ ์ฒ๋ฆฌ : ํ๋ จ ์ธํธ์์ ๊ณ์ฐ๋ ํ๊ท RGB๊ฐ์ ๊ฐ ํฝ์ ์์ ๋บ(AlexNet๊ณผ ๋์ผ)
- Conv : 2d, 3x3 ํํฐ, stride = 1, padding = 1
- 1x1ํํฐ๋ ์ฌ์ฉ : ์ ํ ๋ณํ
- max-polling : 5ํ(conv๋ค์ ํญ์ ๋ฐฐ์น x), 2x2ํํฐ, stride = 2
- FC : 3๊ฐ
- ReLU๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉ
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโ | โโโโโโโโโโโโโโโ | | ๋ฐ์ดํฐ์ | ImageNet (ILSVRC) | | ์ ๋ ฅ ํฌ๊ธฐ | 224ร224 RGB | | ๋ชจ๋ธ ๊ตฌ์กฐ | 3ร3 conv (stride=1, padding=1), 1ร1 conv ์ผ๋ถ | | FC ๊ตฌ์กฐ | 4096 โ 4096 โ 1000, ๋ง์ง๋ง soft-max | | ํ์ฑ ํจ์ | ๋ชจ๋ ์๋์ธต์ ReLU | | ์ ๊ทํ | ๋๋ถ๋ถ LRN ๋ฏธ์ฌ์ฉ (๋ฉ๋ชจ๋ฆฌ, ์๋ ๋ฌธ์ ) |
2.2. Configurations
- ์ธต ๋๋น๋ 64์์ ์์ํด ํ๋ง ๋๋ง๋ค 2๋ฐฐ์ฉ ์ฆ๊ฐํด 512๊น์ง ๋๋ฌํ๋ค. A๋ 11์ธต, E๋ 19์ธต ๊ตฌ์กฐ๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ ๊น์ด๊ฐ ๊น์ด์ ธ๋ ํ๋ผ๋ฏธํฐ ์๋ ์์ง๋ง ํฐ ํํฐ๋ฅผ ์ฐ๋ ๋คํธ์ํฌ๋ณด๋ค ์ ์ ์ ์๋ค.

ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโ | โโโโโโโโโโโโ- | | ๋คํธ์ํฌ A | 11์ธต (8 conv + 3 FC) | | ๋คํธ์ํฌ E | 19์ธต (16 conv + 3 FC) | | ์ฑ๋ ์ | 64์์ ์์, ํ๋ง๋ง๋ค 2๋ฐฐ, ์ต์ข 512 | | ํ๋ผ๋ฏธํฐ ์ | AโE: 133M ~ 144M, ๊ธฐ์กด๋ณด๋ค ํจ์จ์ | | ๋น๊ต ๋์ | OverFeat (Sermanet et al., 2014) 144M |
2.3. Discussion
- ์ฐจ์ด์ : 3x3์ปค๋ stride = 1์ฌ์ฉ
- ๋ํ ํ๋ฒ์ ํฐ ์ปค๋ 7x7, 5x5๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , 3x3์ ์์์ ์ฌ์ฉ
- ํจ๊ณผ : 3x3์ปค๋ 2์ฅ์ฌ์ฉ์ 5x5์ปค๋์ ์ฌ์ฉํ๋ ํจ๊ณผ์ ๋์ผ, 3์ฅ ์ฌ์ฉ์ 7x7์ปค๋์ ์ฌ์ฉํ๋ ํจ๊ณผ์ ๋์ผ
- ์ฅ์
- ๋น์ ํํจ์๊ฐ 3ํ ์ฌ์ฉ๋์ด, ํ๋ณ๋ ฅ์ด ๋ ์ข์์ง๋ค
- ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๋ชจ๋ C ์ฑ๋์ผ ๋, ์ธ ์ธต์ 3ร3 ํฉ์ฑ๊ณฑ ์คํ์ 3(3^2C^2) = 27C^2๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง์ง๋ง, ๋จ์ผ 7ร7 ์ธต์ 7^2C^2 = 49C^2๊ฐ๋ก ํ๋ผ๋ฏธํฐ ์๊ฐ ์ค์ด๋ ๋ค
- ์ผ์ข ์ ์ ๊ทํ๋ก ์์ฉ๋๋ค
- 1x1์ปค๋ ์ฌ์ฉ : ๋น์ ํ์ฑ ์ฆ๊ฐ ํจ๊ณผ(ํ์ฑํ ํจ์์ ์ํด)
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋น๊ต ๋์ | AlexNet(11ร11), Zeiler(7ร7), OverFeat ๋ฑ |
| VGG ์ ๊ทผ | ์ ์ธต์์ 3ร3 conv ์ฌ์ฉ |
| ์ฅ์ 1 | ๋น์ ํ์ฑ(์: 3๊ฐ ReLU vs 1๊ฐ) ์ฆ๊ฐ |
| ์ฅ์ 2 | ํ๋ผ๋ฏธํฐ ๊ฐ์ (27C^2 vs 49C^2, 81% ์ ์ฝ) |
| ์ฅ์ 3 | ์ ๊ทํ ํจ๊ณผ (ํฐ ํํฐ๋ฅผ ์์ ํํฐ๋ก ๋ถํด) |
| 1ร1 conv | receptive field ์ ์ง, ๋น์ ํ์ฑ ์ถ๊ฐ |
| GoogLeNet ๋น๊ต | ๋ ๊น์ง๋ง ๋ณต์ก, VGG๋ ๋จ์ยท์ฑ๋ฅ ์ฐ์ |
๐ 3. Classification Framework
๋ฒ์ญ
2์ฅ์์ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๋ณํ์ ์ค๋ช ํ ๋ฐ ์ด์ด, 3์ฅ์์๋ ํ๋ จ(Training)๊ณผ ํ๊ฐ(Testing) ํ๋กํ ์ฝ์ ๋ค๋ฃฌ๋ค. ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ, ์ ๊ทํ, ์ด๊ธฐํ, ๋ฐ์ดํฐ ์ฆ๊ฐ, ํ ์คํธ ์ ๋ฐฉ๋ฒ๋ก ๋ฑ์ด ํฌํจ๋๋ค.
3.1. Training
ConvNet ํ์ต ์ ์ฐจ๋ ์ผ๋ฐ์ ์ผ๋ก Krizhevsky et al. (2012)์ ๋ฐ๋ฅธ๋ค(๋จ, ์ดํ ์ค๋ช ํ ๋ค์ค ์ค์ผ์ผ ํ์ต ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ์ ๋ ฅ crop ์ํ๋ง์ ์ ์ธ). ์ฆ, ํ์ต์ ๋ชจ๋ฉํ ์ ์ฌ์ฉํ ๋ฏธ๋๋ฐฐ์น ๊ฒฝ์ฌํ๊ฐ๋ฒ(mini-batch gradient descent, ์ญ์ ํ(LeCun et al., 1989) ๊ธฐ๋ฐ)์ ํตํด ๋คํญ ๋ก์ง์คํฑ ํ๊ท(multinomial logistic regression) ๋ชฉ์ ํจ์๋ฅผ ์ต์ ํํ๋ ๋ฐฉ์์ผ๋ก ์ํ๋๋ค. ๋ฐฐ์น ํฌ๊ธฐ๋ 256, ๋ชจ๋ฉํ ์ 0.9๋ก ์ค์ ๋์๋ค. ํ์ต์ ๊ฐ์ค์น ๊ฐ์ (weight decay, L2 ํจ๋ํฐ ๊ณ์ 5ยท10^โ4)์ ์ฒซ ๋ ๊ฐ์ ์์ ์ฐ๊ฒฐ ์ธต์ ๋ํ dropout ์ ๊ทํ(dropout ๋น์จ 0.5)๋ก ์ ๊ทํ๋์๋ค. ์ด๊ธฐ ํ์ต๋ฅ ์ 10^โ2๋ก ์ค์ ๋์์ผ๋ฉฐ, ๊ฒ์ฆ ์ธํธ ์ ํ๋๊ฐ ํฅ์๋์ง ์์ ๋๋ง๋ค 10๋ฐฐ์ฉ ๊ฐ์๋์๋ค. ์ด ์ธ ๋ฒ ๊ฐ์์์ผฐ๊ณ , 370K iteration(74 epoch)์์ ํ์ต์ ์ข ๋ฃํ๋ค. Krizhevsky et al. (2012)์ ๋นํด ๋งค๊ฐ๋ณ์ ์์ ๊น์ด๊ฐ ๋ ๋ง์์๋ ๋ถ๊ตฌํ๊ณ , (a) ๊น์ด์ ์์ ํฉ์ฑ๊ณฑ ํํฐ๊ฐ ๋ด์ฌ์ ์ ๊ทํ๋ฅผ ์ ๊ณตํ์ผ๋ฉฐ, (b) ์ผ๋ถ ์ธต์ ์ฌ์ ์ด๊ธฐํ(pre-initialisation)ํ๊ธฐ ๋๋ฌธ์ ์คํ๋ ค ๋ ์ ์ epoch์ผ๋ก ์๋ ดํ๋ค๊ณ ์ถ์ธกํ๋ค.
๋คํธ์ํฌ ๊ฐ์ค์น ์ด๊ธฐํ๋ ์ค์ํ๋ค. ์ด๊ธฐํ๊ฐ ์๋ชป๋๋ฉด ๊ธฐ์ธ๊ธฐ ๋ถ์์ ์ฑ์ผ๋ก ํ์ต์ด ๋ฉ์ถ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ํผํ๊ธฐ ์ํด, ๋จผ์ ์์์ ๋ฌด์์ ์ด๊ธฐํ๋ก๋ ํ์ต ๊ฐ๋ฅํ ๊ตฌ์ฑ A(Table 1)๋ฅผ ํ์ตํ๋ค. ์ดํ ๋ ๊น์ ์ํคํ ์ฒ ํ์ต ์, ์ฒ์ ๋ค ๊ฐ ํฉ์ฑ๊ณฑ ์ธต๊ณผ ๋ง์ง๋ง ์ธ ๊ฐ FC ์ธต์ ๋คํธ์ํฌ A์ ๊ฐ์ค์น๋ก ์ด๊ธฐํํ๊ณ , ์ค๊ฐ ์ธต๋ค์ ๋ฌด์์๋ก ์ด๊ธฐํํ๋ค. ์ฌ์ ์ด๊ธฐํ๋ ์ธต๋ ํ์ต ์ค์ ๋ณํ๋๋ก ํ์ต๋ฅ ์ ๋ฎ์ถ์ง ์์๋ค. ๋ฌด์์ ์ด๊ธฐํ์ ๊ฒฝ์ฐ ํ๊ท 0, ๋ถ์ฐ 10^โ2์ธ ์ ๊ท๋ถํฌ์์ ๊ฐ์ค์น๋ฅผ ์ํ๋งํ๊ณ , bias๋ 0์ผ๋ก ์ด๊ธฐํํ๋ค. ๋ ผ๋ฌธ ์ ์ถ ์ดํ Glorot & Bengio (2010)์ ๋ฌด์์ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ฌ์ ํ์ต ์์ด๋ ์ด๊ธฐํ๊ฐ ๊ฐ๋ฅํจ์ ํ์ธํ๋ค.
ConvNet ์ ๋ ฅ ํฌ๊ธฐ 224ร224 ์ด๋ฏธ์ง๋ฅผ ์ป๊ธฐ ์ํด, ํ๋ จ ์ด๋ฏธ์ง๋ฅผ ๋ฆฌ์ค์ผ์ผํ ๋ค ๋ฌด์์๋ก crop์ ์๋ผ๋ด์ด ์ฌ์ฉํ๋ค(SGD iteration๋น ์ด๋ฏธ์ง๋น 1 crop). ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก๋ ๋ฌด์์ ์ข์ฐ ๋ฐ์ (horizontal flipping)๊ณผ ๋ฌด์์ RGB ์์ ๋ณํ(Krizhevsky et al., 2012)๋ฅผ ์ ์ฉํ๋ค. ํ๋ จ ์ด๋ฏธ์ง ๋ฆฌ์ค์ผ์ผ๋ง์ ์๋์ ๊ฐ๋ค.
ํ๋ จ ์ด๋ฏธ์ง ํฌ๊ธฐ:
S๋ฅผ ๋ฆฌ์ค์ผ์ผ๋ ํ๋ จ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์งง์ ๋ณ ๊ธธ์ด๋ผ๊ณ ํ ๋(์ด๋ฅผ ํ์ต ์ค์ผ์ผ์ด๋ผ ๋ถ๋ฅธ๋ค), ConvNet ์ ๋ ฅ crop ํฌ๊ธฐ๋ 224ร224๋ก ๊ณ ์ ๋์ด ์์ผ๋ S๋ 224 ์ด์ ์๋ฌด ๊ฐ์ด๋ ๊ฐ์ง ์ ์๋ค. S=224์ด๋ฉด crop์ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์งง์ ๋ณ ์ ์ฒด๋ฅผ ํฌํจํ๊ณ , Sโซ224์ด๋ฉด crop์ ์์ ๊ฐ์ฒด๋ ๊ฐ์ฒด์ ์ผ๋ถ๋ง ํฌํจํ๋ค.
S๋ฅผ ์ค์ ํ๋ ๋ ๊ฐ์ง ์ ๊ทผ์ ๊ณ ๋ คํ๋ค. ์ฒซ์งธ๋ S๋ฅผ ๊ณ ์ ํ๋ ๋จ์ผ ์ค์ผ์ผ ํ์ต(single-scale training)์ด๋ค. ์ด ๊ฒฝ์ฐ crop ๋ด ์ฝํ ์ธ ๋ ์ฌ์ ํ ๋ค์ค ์ค์ผ์ผ ์ ๋ณด๋ฅผ ๋ํ๋ผ ์ ์๋ค. ์ฐ๋ฆฌ๋ S=256(์ ํ์ฐ๊ตฌ์์ ๋๋ฆฌ ์ฌ์ฉ)๊ณผ S=384 ๋ ๊ฐ์ง ๊ณ ์ ์ค์ผ์ผ์์ ํ์ต์ ์ํํ๋ค. S=256์ผ๋ก ํ์ตํ ๋ค, S=384 ๋ชจ๋ธ์ ์ด๋ฅผ ์ฌ์ ํ์ต ๊ฐ์ค์น๋ก ์ด๊ธฐํํ๊ณ ํ์ต๋ฅ ์ 10^โ3์ผ๋ก ์ค์ฌ ํ์ต ์๊ฐ์ ๋จ์ถํ๋ค.
๋์งธ๋ ๋ค์ค ์ค์ผ์ผ ํ์ต(multi-scale training)์ผ๋ก, ๊ฐ ํ๋ จ ์ด๋ฏธ์ง๋ฅผ [S_min, S_max] ๋ฒ์์์ ๋ฌด์์๋ก ์ํ๋ง๋ S๋ก ๋ฆฌ์ค์ผ์ผํ๋ค(์ฌ๊ธฐ์๋ S_min=256, S_max=512). ์ด๋ ๊ฐ์ฒด ํฌ๊ธฐ๊ฐ ๋ค์ํ ์ ์ ๊ณ ๋ คํ๋ ๋ฐ ์ ๋ฆฌํ๋ฉฐ, ์ค์ผ์ผ ์งํฐ๋ง(scale jittering)์ ์ํ ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก๋ ๋ณผ ์ ์๋ค. ์๋์์ ์ด์ ๋ก, ๋ค์ค ์ค์ผ์ผ ๋ชจ๋ธ์ ๋์ผํ ๊ตฌ์ฑ์ S=384 ๋จ์ผ ์ค์ผ์ผ ์ฌ์ ํ์ต ๋ชจ๋ธ์ fine-tuningํ์ฌ ํ์ตํ๋ค.
3.2. Testing
ํ ์คํธ ์, ํ์ต๋ ConvNet๊ณผ ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅ๊ฐ ์ด๋ฃจ์ด์ง๋ค. ๋จผ์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ ์ ์๋ ์ต์ ๋ณ ๊ธธ์ด Q๋ก ๋ฑ๋น์ ์ผ๋ก ๋ฆฌ์ค์ผ์ผํ๋ค(Q๋ฅผ ํ ์คํธ ์ค์ผ์ผ์ด๋ผ ํ๋ค). Q๋ ๋ฐ๋์ ํ์ต ์ค์ผ์ผ S์ ๊ฐ์ ํ์๋ ์๋ค(4์ฅ์์ ๋ณด์ด๋ฏ์ด, ๊ฐ S์ ๋ํด ์ฌ๋ฌ Q๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง๋ค). ๊ทธ ํ ๋คํธ์ํฌ๋ฅผ ๋ฆฌ์ค์ผ์ผ๋ ํ ์คํธ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํด ์กฐ๋ฐํ๊ฒ(densely) ์ ์ฉํ๋๋ฐ, ์ด๋ (Sermanet et al., 2014)์ ์ ์ฌํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, ์์ ์ฐ๊ฒฐ ์ธต๋ค์ ํฉ์ฑ๊ณฑ ์ธต์ผ๋ก ๋ณํํ๋ค(์ฒซ ๋ฒ์งธ FC ์ธต์ 7ร7 conv ์ธต์ผ๋ก, ๋ง์ง๋ง ๋ ๊ฐ์ FC ์ธต์ 1ร1 conv ์ธต์ผ๋ก ๋ณํ). ์ด๋ ๊ฒ ์ป์ด์ง ์์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ๋ ์ ์ฒด(์๋ฆฌ์ง ์์) ์ด๋ฏธ์ง์ ์ ์ฉ๋๋ค. ๊ฒฐ๊ณผ๋ ํด๋์ค ์์ ๋์ผํ ์ฑ๋์ ๊ฐ๋ ํด๋์ค ์ ์ ๋งต์ด๋ฉฐ, ์ด๋ ์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ณต๊ฐ ํด์๋๊ฐ ๋ฌ๋ผ์ง๋ค. ๋ง์ง๋ง์ผ๋ก, ์ด๋ฏธ์ง์ ๋ํ ๊ณ ์ ํฌ๊ธฐ ํด๋์ค ์ ์ ๋ฒกํฐ๋ฅผ ์ป๊ธฐ ์ํด ํด๋์ค ์ ์ ๋งต์ ๊ณต๊ฐ์ ์ผ๋ก ํ๊ท (sum-pooling)ํ๋ค. ๋ํ ํ ์คํธ์ ์ฆ๊ฐ์ ์ํด ์ด๋ฏธ์ง๋ฅผ ์ข์ฐ ๋ฐ์ ํ๊ณ , ์๋ณธ๊ณผ ๋ฐ์ ๋ ์ด๋ฏธ์ง์ soft-max ํด๋์ค posterior๋ฅผ ํ๊ท ๋ด์ด ์ต์ข ์ ์๋ฅผ ์ป๋๋ค.
์์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ๋ฅผ ์ ์ฒด ์ด๋ฏธ์ง์ ์ ์ฉํ๊ธฐ ๋๋ฌธ์, ํ ์คํธ ์ ์ฌ๋ฌ crop์ ์ํ๋งํ ํ์๊ฐ ์๋ค(Krizhevsky et al., 2012). ์ฌ๋ฌ crop์ ๋นํจ์จ์ ์ด๋ฉฐ crop๋ง๋ค ๋คํธ์ํฌ๋ฅผ ๋ค์ ๊ณ์ฐํด์ผ ํ๋ค. ๊ทธ๋ฌ๋ Szegedy et al. (2014)์ฒ๋ผ ๋ง์ crop์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋ ์ธ๋ฐํ ์ ๋ ฅ ์ด๋ฏธ์ง ์ํ๋ง์ด ์ด๋ฃจ์ด์ ธ ์ ํ๋๊ฐ ๊ฐ์ ๋ ์ ์๋ค. ๋ํ multi-crop ํ๊ฐ์ dense ํ๊ฐ๊ฐ ์ํธ ๋ณด์์ ์ธ๋ฐ, ์ด๋ ํฉ์ฑ๊ณฑ ๊ฒฝ๊ณ ์กฐ๊ฑด์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค. crop์ ConvNet์ ์ ์ฉํ๋ฉด ํฉ์ฑ๊ณฑ feature map์ 0์ผ๋ก ํจ๋ฉ๋์ง๋ง, dense ํ๊ฐ์์๋ ๋์ผํ crop์ ํจ๋ฉ์ด ์ด๋ฏธ์ง์ ์ธ์ ๋ถ๋ถ์์ ์์ฐ์ค๋ฝ๊ฒ ์ ๋๋๋ค(ํฉ์ฑ๊ณฑ๊ณผ pooling ๋ชจ๋๋ก ์ธํด). ์ด๋ ์ ์ฒด ๋คํธ์ํฌ์ ์์ฉ์์ญ์ ํฌ๊ฒ ํ์ฅ์์ผ ๋ ๋ง์ ์ปจํ ์คํธ๋ฅผ ํฌ์ฐฉํ๊ฒ ํ๋ค. ์ค์ ๋ก๋ multi-crop์ด ๊ณ์ฐ ์๊ฐ์ด ํฌ๊ฒ ๋์ด๋ ์ ํ๋ ๊ฐ์ ๋๋น ํจ์จ์ฑ์ด ๋ฎ๋ค๊ณ ๋ณด์ง๋ง, ์ฐธ๊ณ ๋ก ์ฐ๋ฆฌ๋ ๊ฐ ์ค์ผ์ผ๋น 50๊ฐ crop(5ร5 ๊ฒฉ์์ ์ข์ฐ ๋ฐ์ 2๊ฐ)์ ์ฌ์ฉํด ์ด 150 crop(3๊ฐ ์ค์ผ์ผ)์ผ๋ก ๋คํธ์ํฌ๋ฅผ ํ๊ฐํ์ผ๋ฉฐ, ์ด๋ Szegedy et al. (2014)๊ฐ 4๊ฐ ์ค์ผ์ผ์์ 144 crop์ ์ฌ์ฉํ ๊ฒ๊ณผ ์ ์ฌํ๋ค.
3.3. ๊ตฌํ ๋ํ ์ผ
์ฐ๋ฆฌ์ ๊ตฌํ์ ๊ณต๊ฐ๋ C++ Caffe ํด๋ฐ์ค(Jia, 2013, 2013๋ 12์ fork)์์ ํ์๋์์ผ๋, ๋ค์์ ์ค์ํ ์์ ์ฌํญ์ ํฌํจํ๋ค. ์ด๋ก์จ ๋จ์ผ ์์คํ ์ ์ค์น๋ ๋ค์ค GPU์์ ํ๋ จ๊ณผ ํ๊ฐ๋ฅผ ์ํํ ์ ์์ผ๋ฉฐ, ๋ค์ค ์ค์ผ์ผ์์ ์๋ฆฌ์ง ์์(full-size) ์ด๋ฏธ์ง๋ฅผ ํ์ต ๋ฐ ํ๊ฐํ ์ ์๋ค(์์ ์ค๋ช ํ ๋ฐ์ ๊ฐ์ด). ๋ค์ค GPU ํ์ต์ ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ(data parallelism)์ ํ์ฉํ๋ฉฐ, ๊ฐ ํ์ต ๋ฐฐ์น๋ฅผ ์ฌ๋ฌ GPU ๋ฐฐ์น๋ก ๋ถํ ํ์ฌ ๊ฐ GPU์์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ค. GPU ๋ฐฐ์น์ gradient๊ฐ ๊ณ์ฐ๋ ํ ํ๊ท ๋์ด ์ ์ฒด ๋ฐฐ์น์ gradient๋ฅผ ์ป๋๋ค. gradient ๊ณ์ฐ์ GPU ๊ฐ ๋๊ธฐ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ฏ๋ก ๋จ์ผ GPU์์ ํ์ตํ ๊ฒฐ๊ณผ์ ์์ ํ ๋์ผํ๋ค. ์ต๊ทผ Krizhevsky (2014)๋ ConvNet ํ์ต์ ๊ฐ์ํ๊ธฐ ์ํ ๋ ์ ๊ตํ ๋ฐฉ๋ฒ์ ์ ์ํ๋๋ฐ, ์ด๋ ๋คํธ์ํฌ์ ์๋ก ๋ค๋ฅธ ์ธต์ ๋ํด ๋ชจ๋ธ ๋ณ๋ ฌ์ฑ๊ณผ ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ์ ๊ฒฐํฉํ๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ๊ฐ๋ ์ ์ผ๋ก ํจ์ฌ ๋จ์ํ ๋ฐฉ์์ด ์ด๋ฏธ ๋จ์ผ GPU ๋๋น 4-GPU ์์คํ ์์ ์ฝ 3.75๋ฐฐ์ ์๋ ํฅ์์ ์ ๊ณตํจ์ ํ์ธํ๋ค. NVIDIA Titan Black GPU 4๊ฐ๋ฅผ ์ฅ์ฐฉํ ์์คํ ์์, ๋จ์ผ ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ ๋ฐ ์ํคํ ์ฒ์ ๋ฐ๋ผ 2โ3์ฃผ๊ฐ ์์๋์๋ค.
๋ด์ฉ
3. Classification Framework
3.1. Training
- ๋ชจ๋ฉํ ์ ํ์ฉํ ๋ฏธ๋๋ฐฐ์น ๊ฒฝ์ฌํ๊ฐ๋ฒ(m = 0.9, batch = 256)
- ์ ๊ทํ : L2
- dropout = 0.5(์ฒซ ๋๊ฐ์ fc layer)
- Loss : multinomial logistic regression
- ํ์ต๋ฅ : ์์ ์ ์(๊ฐ์ x 10๋ฐฐ ๊ฐ์)
- ์ด 74์ํญ
- ๋ฌด๊ฑฐ์์๋ ๋ถ๊ตฌํ๊ณ ์ปค๋ ์๊ธฐ์ ๋ํ ์ ๊ทํ + ์ผ๋ถ ์ธต ์ฌ์ ์ด๊ธฐํ๋ก ์ธํด ๋ ์ ์ ์๊ฐ ์์
- ์ด๊ธฐํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ, ์์์ ๋ฌด์์ ์ด๊ธฐํ๋ก๋ ํ์ต๊ฐ๋ฅํ A๋ฅผ ํ์ต
- ๋ ๊น์ ๋คํธ์ํฌ : ์ฒ์ 4๊ฐ์ CNN layer๊ณผ ๋ง์ง๋ง fc layer๋ค์ A์ ๋คํธ์ํฌ ๊ฐ์ค์น๋ก ์ด๊ธฐํ, ๋๋จธ์ง๋ ๋ฌด์์ ์ด๊ธฐํ(ํ์ต๋ฅ ๊ฐ์ X)
- ๋ฌด์์ ์ด๊ธฐํ์ ๊ฒฝ์ฐ ํ๊ท 0, ๋ถ์ฐ $10^{-2}$์ธ ์ ๊ท๋ถํฌ์์ ๊ฐ์ค์น๋ฅผ ์ํ๋งํ๊ณ , bias๋ 0์ผ๋ก ์ด๊ธฐํ
[!NOTE] ์ธ์ด๋น์ด ์ด๊ธฐํ(Xavier Initialization)
์ ํธ(ํ์ฑํ ๊ฐ)๊ฐ ๋คํธ์ํฌ์ ์ฌ๋ฌ ์ธต์ ํต๊ณผํ๋๋ผ๋ ๊ทธ ๋ถ์ฐ(ํฌ๊ธฐ)์ ์ผ์ ํ๊ฒ ์ ์งํ์ฌ, ๊ธฐ์ธ๊ธฐ ์์ค(Vanishing Gradient)์ด๋ ๊ธฐ์ธ๊ธฐ ํญ์ฃผ(Exploding Gradient) ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ณ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒํ๋ ๊ฒ
- ํจ๊ณผ: ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ธต์ด ๊น์ด์ ธ๋ ์ ํธ๊ฐ ์์ ์ ์ผ๋ก ์ ๋ฌ๋์ด, ํ์ต ์ด๊ธฐ ๋จ๊ณ๊ฐ ์ํํด์ง๊ณ ๋ชจ๋ธ์ ์๋ ด ์๋๊ฐ ๋นจ๋ผ์ง๋๋ค.
- ํ๊ณ: ์ธ์ด๋น์ด ์ด๊ธฐํ๋ ์ฃผ๋ก Sigmoid๋ Tanh์ ๊ฐ์ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ ๋ ํจ๊ณผ์ ์ ๋๋ค. ์๋ํ๋ฉด ์ด ํจ์๋ค์ ์ค์ ๋ถ๋ถ์ด ์ ํ์ ๊ฐ๊น๋ค๋ ๊ฐ์ ํ์ ์ ๋๋์๊ธฐ ๋๋ฌธ์ ๋๋ค. ReLU ํ์ฑํ ํจ์์ ํจ๊ป ์ฌ์ฉํ๋ฉด, ํ์ฑํ ๊ฐ์ ์ ๋ฐ์ด 0์ด ๋๋ฉด์ ๋ถ์ฐ์ด ์ค์ด๋ค์ด ๋ค์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค
์ฐธ๊ณ : https://at0z.tistory.com/35
- ๋ฐ์ดํฐ ์ฆ๊ฐ : ๋ฆฌ์ค์ผ์ผ+๋ฌด์์ crop, ์๋ณํ๊ณผ ๋ค์ง๊ธฐ๋AlexNet์ ์ฆ๊ฐ๊ธฐ๋ฒ๊ณผ ๋์ผ
ํ๋ จ๋ฐ์ดํฐ
- 224๋ณด๋ค ํฐ S๋ฅผ ์ค์ ํ๊ณ , ๋๊ฐ์ง ์ ๊ทผ์ ๊ณ ๋ ค
- ๋จ์ผ์ค์ผ์ผ : ์ฐ๊ตฌ ๋ด์์๋ 256 -> 384๋ฅผ ์ฌ์ฉ ์์ S๋ก ์ฌ์ ํ์ต ํ 384๋ฅผ ํ์ต(ํ์ต๋ฅ $10^{-3}$)
- ๋ค์ค์ค์ผ์ผ : ๊ฐ ํ๋ จ์ด๋ฏธ์ง๋ฅผ [S_min, S_max]๋ก ์ฌ์ฉํ์ฌ, ๋ฌด์์๋ก ์ํ๋ S๋ก ๋ฆฌ์ค์ผ์ผ์ ์งํ์ผ๋ก ์ค์ผ์ผ ์งํฐ๋ง(scale jittering)์ ์ํ ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก๋ ๋ณผ ์ ์๋ค.
[!NOTE] ์ค์ผ์ผ์งํฐ๋ง(Scale Jittering)
- ์ค์ผ์ผ (Scale): ์ด๋ฏธ์ง์ ํฌ๊ธฐ ๋๋ ๋ฐฐ์จ
- ์งํฐ๋ง (Jittering): ๋ฌด์ธ๊ฐ๋ฅผ ๋ฏธ์ธํ๊ณ ๋ถ๊ท์นํ๊ฒ ํ๋๋ ๊ฒ
์ฆ, โ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์กฐ๊ธ์ฉ ๋ฌด์์๋ก ๋ฐ๊พธ๋ ๊ฒโ์ ์๋ฏธํด์. ์๋ฅผ ๋ค์ด, ํ๋ จ ๊ณผ์ ์์ ๋์ผํ ๊ณ ์์ด ์ฌ์ง์ ๋ณด์ฌ์ค ๋๋ง๋ค ํฌ๊ธฐ๋ฅผ 90%, 115%, 85%, 120% ๋ฑ์ผ๋ก ๊ณ์ ๋ฐ๊ฟ์ ๋ชจ๋ธ์ ์ ๋ ฅํ๋ ๋ฐฉ์์ ๋๋ค.
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโ | โโโโโโโโโโโโโโโ- | | Loss | ๋คํญ ๋ก์ง์คํฑ ํ๊ท (Softmax cross-entropy) | | Optimizer | ๋ฏธ๋๋ฐฐ์น SGD + Momentum(0.9) | | ์ ๊ทํ | Weight decay(5eโ4), Dropout(0.5, FC์ธต) | | ํ์ต๋ฅ | ์ด๊ธฐ 0.01, ๊ฐ์ ์ ์ฒด ์ 10๋ฐฐ ๊ฐ์, ์ด 3ํ ๊ฐ์ | | ์ด๊ธฐํ | ์์ A๋ก ํ์ต ํ, deeper ๋ชจ๋ธ ์ผ๋ถ ์ธต์ ์ฌ์ฌ์ฉ | | ๋ฐ์ดํฐ ์ฆ๊ฐ | Random crop, flip, RGB shift, scale jittering | | ์ค์ผ์ผ ์ค์ | S=256, 384 (๊ณ ์ ) / [256,512] (multi-scale) |
3.2. Testing
- Q(ํ ์คํธ ์ค์ผ์ผ, ๋ฑ๋น์ , S์ ๋์ผํ ํ์ ์์ - ์คํ๋ ค ์ฑ๋ฅ ํฅ์)
- fc layer๋ค์ conv๋ก ๋ณํ(7x7 -> 1x1 -> 1x1)ํ ์๋ฆฌ์ง ์์ ์ด๋ฏธ์ง์ ์ ์ฉ
- output์ class์์ ๋์ผํ ์ฑ๋์๋ฅผ ๊ฐ์ง๋ ํด๋์ค ์ ์ ๋งต, ์
๋ ฅ ์ด๋ฏธ์ง์ ๋ฐ๋ผ ๊ณต๊ฐํด์๋๊ฐ ๋ฌ๋ผ์ง๋ค
- ์ด๋ฏธ์ง์ ๋ํ ๊ณ ์ class ๋ฒกํฐ๋ฅผ ์ป๊ธฐ ์ํด, ํด๋์ค ๋งต์ ๊ณต๊ฐ์ ์ผ๋ก ํ๊ท (sum-pooling)
- ํ ์คํธ์ ์ฆ๊ฐ : ์ข์ฐ ๋ฐ์ ํ softmaxํด๋์ค์ posterior์ ๋ด์ ํ๊ท ํ ์ต์ข ์ ์
[!NOTE] FC Layer๋ฅผ Conv Layer๋ก ๋ณํํ๋ ์๋ฆฌ
๊ฐ์ค์น ์ ์ง๋ ์ด๋ป๊ฒ?
๊ธฐ์กด ๋ฐฉ์ (FC Layer):
7x7x512ํฌ๊ธฐ์ ํผ์ฒ ๋งต์ ์ผ๋ ฌ๋ก ์ญ ํ ๋๋ค(flatten). ๊ทธ๋ฌ๋ฉด25,088(7 * 7 * 512) ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ ๋ฉ๋๋ค.์ด ๋ฒกํฐ์
[25088, 4096]ํฌ๊ธฐ์ ๊ฑฐ๋ํ ๊ฐ์ค์น ํ๋ ฌ์ ๊ณฑํฉ๋๋ค.๊ฒฐ๊ณผ์ ์ผ๋ก
4096ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ ๋์ต๋๋ค.๋ณํ ๋ฐฉ์ (Conv Layer):
[25088, 4096]ํฌ๊ธฐ์ FC ๊ฐ์ค์น ํ๋ ฌ์[7, 7, 512, 4096]ํฌ๊ธฐ์ ํฉ์ฑ๊ณฑ ํํฐ(์ปค๋)๋ก ํํ๋ฅผ ๋ฐ๊ฟ๋๋ค(reshape).์ด๊ฒ์ ๊ณง, ํฌ๊ธฐ๊ฐ
7x7์ด๊ณ ์ ๋ ฅ ์ฑ๋์ด512์ธ ํํฐ๊ฐ4096๊ฐ ์๋ค๋ ์๋ฏธ์ ๋๋ค.์ด
7x7x512ํฌ๊ธฐ์ ํํฐ4096๊ฐ๋ฅผ7x7x512์ ๋ ฅ ํผ์ฒ ๋งต์ ์ ์ฉํฉ๋๋ค.ํํฐ์ ๊ณต๊ฐ์ ํฌ๊ธฐ(
7x7)๊ฐ ์ ๋ ฅ ํผ์ฒ ๋งต์ ๊ณต๊ฐ์ ํฌ๊ธฐ(7x7)์ ์ ํํ ๊ฐ๊ธฐ ๋๋ฌธ์, ํํฐ๋ ํ ๋ฒ๋ง ์ฐ์ฐ๋๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก1x1x4096ํฌ๊ธฐ์ ์ถ๋ ฅ ๋งต์ด ๋์ต๋๋ค.ํต์ฌ ํฌ์ธํธ:
25,088ํฌ๊ธฐ ๋ฒกํฐ์[25088, 4096]ํ๋ ฌ์ ๊ณฑ์ ์ฐ์ฐ์,7x7x512ํผ์ฒ ๋งต์7x7x512ํฌ๊ธฐ์ ํํฐ4096๊ฐ๋ฅผ ์ ์ฉํ๋ ํฉ์ฑ๊ณฑ ์ฐ์ฐ๊ณผ ์ํ์ ์ผ๋ก ์์ ํ ๋์ผํฉ๋๋ค. ๊ฐ์ค์น๋ ๊ทธ๋๋ก ์ฌ์ฉ๋๋ฉฐ, ๋จ์ง ์ฐ์ฐ ๋ฐฉ์์ ๊ด์ ๋ง ๋ฐ๋ ๊ฒ์ ๋๋ค.
- Conv๋ก ๋ฐ๊พธ๊ธฐ ๋๋ฌธ์ ํ ์คํธ์ cropํ ํ์๊ฐ ์์ผ๋, Szegedy et al. (2014)์ฒ๋ผ ๋ง์ crop์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋ ์ธ๋ฐํ ์ ๋ ฅ ์ด๋ฏธ์ง ์ํ๋ง์ด ์ด๋ฃจ์ด์ ธ ์ ํ๋๊ฐ ๊ฐ์ ๋ ์ ์๋ค.
- multi crop ํ๊ฐ์ dense ํ๊ฐ๊ฐ ์ํธ ๋ณด์์ , ์ด๋ ํฉ์ฑ๊ณฑ ๊ฒฝ๊ณ์กฐ๊ฑด์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค.
- crop์ ConvNet์ ์ ์ฉํ๋ฉด ํฉ์ฑ๊ณฑ feature map์ 0์ผ๋ก ํจ๋ฉ๋์ง๋ง
- dense ํ๊ฐ์์๋ ๋์ผํ crop์ ํจ๋ฉ์ด ์ด๋ฏธ์ง์ ์ธ์ ๋ถ๋ถ์์ ์์ฐ์ค๋ฝ๊ฒ ์ ๋๋๋ค. ์ด๋ ์ ์ฒด ๋คํธ์ํฌ์ ์์ฉ์์ญ์ ํฌ๊ฒ ํ์ฅ์์ผ ๋ ๋ง์ ์ปจํ ์คํธ๋ฅผ ํฌ์ฐฉ
- ์ฆ conv๋ก ๋ฐ๊พธ์ด ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ denseํ๊ฒ ํ๊ฐํ๋ฉด multi crop๋ณด๋ค ํจ์จ์ ์, ๋ค๋ง multi-crop์ ์ฌ์ฉ์ ์ ํ๋๋ฅผ ์กฐ๊ธ ๋ ๋์ผ ์ ์๋ค.
[!NOTE] Multi-crop vs Dense ํ๊ฐ ๋ฐฉ์ ๋น๊ต
Multi-crop ํ๊ฐ (Krizhevsky et al. ๋ฐฉ์)
- ์๋ณธ ์ด๋ฏธ์ง์์ ์ฌ๋ฌ crop(์: 224ร224)์ ์๋ผ๋ ๋๋ค.
- ์๋ผ๋ธ crop๋ง ConvNet์ ์ ๋ ฅํฉ๋๋ค.
- ConvNet ์ฐ์ฐ ๊ณผ์ ์์, feature map์ ๊ฒฝ๊ณ ๋ถ๋ถ์ 0-padding์ ์๋๋ค.
- ์: 3ร3 conv๋ผ๋ฉด, ๋ฐ๊นฅ์ชฝ ํ ์นธ์ ์ค์ ํฝ์ ์ด ์๋๋ผ 0์ด ์ฑ์์ ธ์ ์ฐ์ฐ๋ฉ๋๋ค.
- ๋ฐ๋ผ์ crop ์ฃผ๋ณ(์๋ฅธ ์์ญ ๋ฐ๊นฅ)์ ์ ๋ณด๋ ์์ ์๋ ๊ฒ์ฒ๋ผ ์ฒ๋ฆฌ๋ฉ๋๋ค.
- ์ฆ, crop ๋จ์๋ก ๋คํธ์ํฌ๊ฐ ๊ณ ๋ฆฝ๋ ์ํ์์ ๋์ํฉ๋๋ค.
2. Dense ํ๊ฐ (Sermanet ๋ฐฉ์, VGG์์ ํ์ฉ)
- FC layer๋ฅผ conv๋ก ๋ณํํด ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ์ ๋ฃ์ต๋๋ค.
- ์ด๋ ๋คํธ์ํฌ๋ sliding window ๋ฐฉ์์ผ๋ก ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ํ์ผ๋ฉด์ ์ง์ญ์ ์ธ feature๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ์ด๋ค ์์น์ receptive field๊ฐ ์๋ crop ์์ญ๊ณผ ๊ฒน์น๋ค๊ณ ํด๋, ๊ทธ receptive field์ ๋ฐ๊นฅ์ชฝ ํฝ์ ์ ์ค์ ๋ก ์กด์ฌํ๋ ์ด์ ํฝ์ ์ ๊ฐ์ ธ์ต๋๋ค.
- Multi-crop ํ๊ฐ: crop ๋ฐ๊นฅ์ ๋ฌด์กฐ๊ฑด 0์ผ๋ก ๊ฐ์ โ ๋ฌธ๋งฅ(Context) ์ ๋ณด ์์ค
- Dense ํ๊ฐ: crop ๋ฐ๊นฅ์ ์ค์ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ๋ถ๋ถ์ผ๋ก ์ฑ์์ง โ receptive field๊ฐ ๋์ด์ ธ ๋ ๋ง์ ์ปจํ ์คํธ ํ์ฉ ๊ฐ๋ฅ ์ฆ, ๊ฐ์ ์์น์ crop์ด๋ผ๋ dense ํ๊ฐ์์๋ ์ถ๊ฐ์ ์ธ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๊ณ , ์ด๊ฒ ์ ํ๋ ํฅ์์ ๊ธฐ์ฌํ ์ ์๋ค๋ ๋ป์ ๋๋ค.
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโโโ- | โโโโโโโโโโโโโโโโโโ- | | ํ ์คํธ ์ ๋ ฅ Q | ์ต์ ๋ณ ๊ธธ์ด Q๋ก ๋ฆฌ์ค์ผ์ผ, ํ์ต ์ค์ผ์ผ S์ ๋ค๋ฅผ ์ ์์ | | ๋ฐฉ๋ฒ 1 (Dense) | FC โ conv ๋ณํ, ์ ์ฒด ์ด๋ฏธ์ง ํ๊ฐ, score map ํ๊ท | | ๋ฐฉ๋ฒ 2 (Multi-crop) | crop ์ฌ๋ฌ ๊ฐ ์ถ์ถ ํ ํ๊ฐ, ๋ณด์์ ํจ๊ณผ ์์ | | ์ฅ์ /๋จ์ | Dense: ํจ์จ์ / Multi-crop: ๊ณ์ฐ๋ ํฌ์ง๋ง ์ ํ๋ โ | | ์คํ ์ค์ | VGG: 3๊ฐ ์ค์ผ์ผ ร 50 crop = 150 crop ํ๊ฐ |
3.3. ๊ตฌํ ๋ํ ์ผ
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๊ตฌํ ๊ธฐ๋ฐ | Caffe (2013๋ 12์ fork) |
| ์ฃผ์ ์์ ์ฌํญ | ๋ฉํฐ GPU ํ์ต, ์ ์ฒด ์ด๋ฏธ์ง ๋ฉํฐ์ค์ผ์ผ ํ๊ฐ ์ง์ |
| ๋ณ๋ ฌํ ๋ฐฉ์ | ๋ฐ์ดํฐ ๋ณ๋ ฌ (batch ๋ถํ , gradient ํ๊ท , ๋๊ธฐ์) |
| ์๋ ํฅ์ | 4-GPU ์ฌ์ฉ ์ 3.75๋ฐฐ ๊ฐ์ |
| ํ๋์จ์ด | NVIDIA Titan Black ร4 |
| ํ์ต ์๊ฐ | ๋จ์ผ ๋คํธ์ํฌ ํ์ต์ 2โ3์ฃผ (์ํคํ ์ฒ ์์กด) |
๐ 4. Classification Experiments
๋ฒ์ญ
๋ฐ์ดํฐ์ ๋ณธ ์ฅ์์๋ ์์ ์ค๋ช ํ ConvNet ์ํคํ ์ฒ๋ค์ด ILSVRC-2012 ๋ฐ์ดํฐ์ ์์ ๋ฌ์ฑํ ์ด๋ฏธ์ง ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค(์ด ๋ฐ์ดํฐ์ ์ ILSVRC 2012โ2014 ์ฑ๋ฆฐ์ง์ ์ฌ์ฉ๋จ). ๋ฐ์ดํฐ์ ์ 1000๊ฐ์ ํด๋์ค๋ฅผ ํฌํจํ๋ฉฐ, ์ธ ๋ถ๋ถ์ผ๋ก ๋๋๋ค: ํ์ต ์ธํธ(130๋ง ์ฅ), ๊ฒ์ฆ ์ธํธ(5๋ง ์ฅ), ํ ์คํธ ์ธํธ(10๋ง ์ฅ, ๋ผ๋ฒจ์ ๋น๊ณต๊ฐ). ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ ๊ฐ์ง ์งํ๋ก ํ๊ฐ๋๋ค: top-1 ์๋ฌ์ top-5 ์๋ฌ. top-1 ์๋ฌ๋ ๋ค์ค ํด๋์ค ๋ถ๋ฅ ์ค์ฐจ(์ฆ, ์๋ชป ๋ถ๋ฅ๋ ์ด๋ฏธ์ง์ ๋น์จ)๋ฅผ ์๋ฏธํ๋ฉฐ, top-5 ์๋ฌ๋ ILSVRC์ ์ฃผ์ ํ๊ฐ ๊ธฐ์ค์ผ๋ก, ์ ๋ต ํด๋์ค๊ฐ ์์ธก๋ ์์ 5๊ฐ ํด๋์ค ๋ฐ์ ์์ ํ๋ฅ ์ ์๋ฏธํ๋ค. ๋๋ถ๋ถ์ ์คํ์์๋ ๊ฒ์ฆ ์ธํธ๋ฅผ ํ ์คํธ ์ธํธ๋ก ์ฌ์ฉํ์๋ค. ์ผ๋ถ ์คํ์ ์ค์ ํ ์คํธ ์ธํธ์์๋ ์ํ๋์ด, ILSVRC-2014 ๋ํ์ โVGGโ ํ ์ํธ๋ฆฌ๋ก ์ ์ถ๋์๋ค(Russakovsky et al., 2014).
4.1. SINGLE SCALE EVALUATION
์ฐ๋ฆฌ๋ ๋จผ์ 2.2์ ์์ ์ค๋ช ํ ์ธต ๊ตฌ์ฑ์ ๊ฐ์ง ๊ฐ๋ณ ConvNet ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋จ์ผ ์ค์ผ์ผ์์ ํ๊ฐํ๋ค. ํ ์คํธ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ ๊ณ ์ ๋ S์ ๊ฒฝ์ฐ Q = S๋ก ์ค์ ํ๊ณ , jittered S โ [S_min, S_max]์ ๊ฒฝ์ฐ Q = 0.5(S_min + S_max)๋ก ์ค์ ํ๋ค. ๊ฒฐ๊ณผ๋ ํ 3์ ์ ์๋์ด ์๋ค. ์ฒซ์งธ, Local Response Normalisation(LRN, A-LRN ๋คํธ์ํฌ ์ฌ์ฉ)์ ์ ๊ทํ ์ธต์ด ์๋ ๋ชจ๋ธ A๋ณด๋ค ์ฑ๋ฅ์ ๊ฐ์ ํ์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ๋ ๊น์ ์ํคํ ์ฒ(BโE)์์๋ ์ ๊ทํ๋ฅผ ์ฌ์ฉํ์ง ์์๋ค.
๋์งธ, ConvNet ๊น์ด๊ฐ ์ฆ๊ฐํ ์๋ก ๋ถ๋ฅ ์ค๋ฅ๊ฐ ๊ฐ์ํ๋ค: A์ 11์ธต์์ E์ 19์ธต๊น์ง. ํนํ ๋์ผํ ๊น์ด์์๋ ๋ถ๊ตฌํ๊ณ 1ร1 conv ์ธต ์ธ ๊ฐ๋ฅผ ํฌํจํ๋ ๊ตฌ์ฑ C๋ ๋คํธ์ํฌ ์ ์ฒด์์ 3ร3 conv ์ธต์ ์ฌ์ฉํ๋ ๊ตฌ์ฑ D๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์๋ค. ์ด๋ ์ถ๊ฐ์ ์ธ ๋น์ ํ์ฑ์ด ๋์์ด ๋๊ธด ํ์ง๋ง(C๊ฐ B๋ณด๋ค ์ฑ๋ฅ์ด ๋์), ๊ณต๊ฐ์ ๋ฌธ๋งฅ์ ํฌ์ฐฉํ๊ธฐ ์ํด ๋น์๋ช ํ ์์ฉ์์ญ(conv ํํฐ)์ ์ฌ์ฉํ๋ ๊ฒ๋ ์ค์ํจ์ ์๋ฏธํ๋ค(D๊ฐ C๋ณด๋ค ์ฑ๋ฅ์ด ๋์). ์ํคํ ์ฒ์ ์ค๋ฅ์จ์ ๊น์ด๊ฐ 19์ธต์ ๋๋ฌํ์ ๋ ํฌํ๋์ง๋ง, ๋ ํฐ ๋ฐ์ดํฐ์ ์์๋ ๋ ๊น์ ๋ชจ๋ธ์ด ์ ์ฉํ ์ ์๋ค. ๋ํ ์ฐ๋ฆฌ๋ net B๋ฅผ ์์ ๋คํธ์ํฌ์ ๋น๊ตํ๋๋ฐ, ์ด๋ B์ ๊ฐ 3ร3 conv ์ธต ์์ ๋จ์ผ 5ร5 conv ์ธต์ผ๋ก ๋์ฒดํ ๊ฒ์ด๋ค(2.3์ ์์ ์ค๋ช ํ ๊ฒ์ฒ๋ผ ๋์ผํ ์์ฉ์์ญ). ์์ ๋คํธ์ํฌ์ top-1 ์ค๋ฅ์จ์ B๋ณด๋ค 7% ๋ ๋์๋๋ฐ(center crop ๊ธฐ์ค), ์ด๋ ์์ ํํฐ๋ฅผ ๊ฐ์ง ๊น์ ๋คํธ์ํฌ๊ฐ ํฐ ํํฐ๋ฅผ ๊ฐ์ง ์์ ๋คํธ์ํฌ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํจ์ ํ์ธ์์ผ์ค๋ค.
๋ง์ง๋ง์ผ๋ก, ํ์ต ์ scale jittering(S โ [256; 512])์ ๊ณ ์ ๋ ๊ฐ์ฅ ์งง์ ๋ณ ํฌ๊ธฐ(S = 256 ๋๋ S = 384)๋ก ํ์ตํ ๊ฒฝ์ฐ๋ณด๋ค ๊ฒฐ๊ณผ๊ฐ ํ์ ํ ๊ฐ์ ๋๋ฉฐ, ํ ์คํธ์์๋ ๋จ์ผ ์ค์ผ์ผ๋ง ์ฌ์ฉํ๋๋ผ๋ ํจ๊ณผ์ ์ด์๋ค. ์ด๋ scale jittering์ ํตํ ํ์ต ๋ฐ์ดํฐ์ ์ฆ๊ฐ์ด ๋ค์ค ์ค์ผ์ผ ์ด๋ฏธ์ง ํต๊ณ ํฌ์ฐฉ์ ์ค์ ๋ก ๋์์ด ๋จ์ ํ์ธ์์ผ์ค๋ค.
4.2. MULTI-SCALE EVALUATION
๋จ์ผ ์ค์ผ์ผ์์ ConvNet ๋ชจ๋ธ๋ค์ ํ๊ฐํ ํ, ์ด์ ํ ์คํธ ์์ scale jittering ํจ๊ณผ๋ฅผ ํ๊ฐํ๋ค. ์ด๋ ํ๋์ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฆฌ์ค์ผ์ผ๋ ๋ฒ์ ์ ํ ์คํธ ์ด๋ฏธ์ง(Q ๊ฐ์ด ๋ค๋ฆ)์ ์ ์ฉํ ํ, ๊ฒฐ๊ณผ ํด๋์ค posterior๋ฅผ ํ๊ท ๋ด๋ ๋ฐฉ์์ด๋ค. ํ์ต ์ค์ผ์ผ๊ณผ ํ ์คํธ ์ค์ผ์ผ ๊ฐ ๋ถ์ผ์น๊ฐ ํด ๊ฒฝ์ฐ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์, ๊ณ ์ ๋ S๋ก ํ์ต๋ ๋ชจ๋ธ์ ํ์ต ์ค์ผ์ผ๊ณผ ๊ฐ๊น์ด ์ธ ๊ฐ์ง ํ ์คํธ ํฌ๊ธฐ์์ ํ๊ฐ๋์๋ค: Q = {S โ 32, S, S + 32}. ํํธ, ํ์ต ์ scale jittering์ ์ ์ฉํ ๋ชจ๋ธ์ ํ ์คํธ ์ ๋ ๋์ ์ค์ผ์ผ ๋ฒ์์ ์ ์ฉํ ์ ์์ผ๋ฏ๋ก, ๋ณ์ S โ [S_min; S_max]๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋ ๋์ ํฌ๊ธฐ ๋ฒ์์์ ํ๊ฐ๋์๋ค: Q = {S_min, 0.5(S_min + S_max), S_max}. ํ 4์ ์ ์๋ ๊ฒฐ๊ณผ๋, ํ ์คํธ ์ scale jittering์ด ๋์ผ ๋ชจ๋ธ์ ๋จ์ผ ์ค์ผ์ผ์์ ํ๊ฐํ ๊ฒ(Table 3)๋ณด๋ค ์ฑ๋ฅ์ ํฅ์์ํด์ ๋ณด์ฌ์ค๋ค. ์์์ ๊ฐ์ด ๊ฐ์ฅ ๊น์ ๊ตฌ์ฑ(D์ E)์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, scale jittering์ ๊ณ ์ ๋ ์ต์ ๋ณ S๋ก ํ์ตํ ๊ฒฝ์ฐ๋ณด๋ค ์ฐ์ํ๋ค. ์ฐ๋ฆฌ์ ๋จ์ผ ๋คํธ์ํฌ ๊ธฐ์ค ๊ฒ์ฆ ์ธํธ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ top-1/top-5 ์๋ฌ 24.8%/7.5% (ํ 4์์ ๊ตต๊ฒ ํ์). ํ ์คํธ ์ธํธ์์๋ ๊ตฌ์ฑ E๊ฐ top-5 ์๋ฌ 7.3%๋ฅผ ๋ฌ์ฑํ๋ค.
4.3 MULTI-CROP EVALUATION
ํ 5์์๋ dense ConvNet ํ๊ฐ์ multi-crop ํ๊ฐ๋ฅผ ๋น๊ตํ๋ค(์์ธํ ๋ด์ฉ์ 3.2์ ์ฐธ์กฐ). ๋ํ ๋ ํ๊ฐ ๊ธฐ๋ฒ์ soft-max ์ถ๋ ฅ์ ํ๊ท ํ์ฌ ์ํธ ๋ณด์์ฑ์ ํ๊ฐํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ค์ค crop์ ์ฌ์ฉํ๋ ๊ฒ์ด dense ํ๊ฐ๋ณด๋ค ์ฝ๊ฐ ๋ ์ฐ์ํ๋ฉฐ, ๋ ์ ๊ทผ ๋ฐฉ์์ ๊ฒฐํฉํ๋ฉด ๊ฐ๊ฐ์ ์ฑ๋ฅ์ ์ด๊ณผํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ค. ์์ ์ธ๊ธํ๋ฏ์ด, ์ด๋ ํฉ์ฑ๊ณฑ ๊ฒฝ๊ณ ์กฐ๊ฑด์ ๋ค๋ฃจ๋ ๋ฐฉ์์ ์ฐจ์ด ๋๋ฌธ์ด๋ผ๊ณ ๊ฐ์ ํ๋ค.
4.4 CONVNET FUSION
์ง๊ธ๊น์ง๋ ๊ฐ๋ณ ConvNet ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ค. ์ด๋ฒ ์คํ์์๋ ์ฌ๋ฌ ๋ชจ๋ธ์ soft-max ํด๋์ค posterior๋ฅผ ํ๊ท ํ์ฌ ์ถ๋ ฅ์ ๊ฒฐํฉํ๋ค. ์ด๋ ๋ชจ๋ธ๋ค์ ์ํธ ๋ณด์์ฑ ๋๋ถ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ฉฐ, 2012๋ (Krizhevsky et al., 2012)๊ณผ 2013๋ (Zeiler & Fergus, 2013; Sermanet et al., 2014) ILSVRC ์์ ์ ์ถ์๋ค์์๋ ์ฌ์ฉ๋์๋ค. ๊ฒฐ๊ณผ๋ ํ 6์ ์ ์๋์ด ์๋ค. ILSVRC ์ ์ถ ์์ ์๋ ๋จ์ผ ์ค์ผ์ผ ๋คํธ์ํฌ์ FC ์ธต๋ง fine-tuningํ multi-scale ๋ชจ๋ธ D๋ง ํ์ต๋ ์ํ์๋ค. ์ด๋ค 7๊ฐ ๋คํธ์ํฌ ์์๋ธ์ ILSVRC ํ ์คํธ ์๋ฌ 7.3%๋ฅผ ๊ธฐ๋กํ๋ค. ์ ์ถ ์ดํ, ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ multi-scale ๋ชจ๋ธ(D์ E)๋ง์ ๊ฒฐํฉํ ์์๋ธ์ ๊ณ ๋ คํ๋๋ฐ, dense ํ๊ฐ์์๋ 7.0%, dense์ multi-crop ํ๊ฐ๋ฅผ ๊ฒฐํฉํ๋ฉด 6.8%๋ก ํ ์คํธ ์๋ฌ๊ฐ ์ค์๋ค. ์ฐธ๊ณ ๋ก, ๋จ์ผ ๋ชจ๋ธ ๊ธฐ์ค ์ต๊ณ ์ฑ๋ฅ์ ๋ชจ๋ธ E๋ก 7.1% ์๋ฌ(Table 5).
4.5 Comparison with the State of the Art
๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ฅผ ํ 7์์ ์ต์ฒจ๋จ(state of the art)๊ณผ ๋น๊ตํ๋ค. ILSVRC-2014 ๋ถ๋ฅ ๊ณผ์ (Russakovsky et al., 2014)์์, โVGGโ ํ์ 7๊ฐ ๋ชจ๋ธ ์์๋ธ๋ก 7.3% ํ ์คํธ ์๋ฌ๋ฅผ ๊ธฐ๋กํด 2์๋ฅผ ์ฐจ์งํ๋ค. ์ ์ถ ์ดํ, ๋จ 2๊ฐ ๋ชจ๋ธ ์์๋ธ๋ก ์๋ฌ์จ์ 6.8%๊น์ง ๋ฎ์ถ์๋ค. ํ 7์์ ๋ณด์ด๋ฏ, ์ฐ๋ฆฌ์ ๋งค์ฐ ๊น์ ConvNet์ ILSVRC-2012 ๋ฐ ILSVRC-2013 ๋ํ์์ ์ต๊ณ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ ์ด์ ์ธ๋ ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋ถ๋ฅ ๊ณผ์ ์ฐ์น ๋ชจ๋ธ GoogLeNet(6.7% ์๋ฌ)๊ณผ๋ ๊ฒฝ์ ๊ฐ๋ฅํ๋ฉฐ, ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ 11.2%, ์ฌ์ฉํ์ง ์์ ๊ฒฝ์ฐ 11.7%๋ฅผ ๊ธฐ๋กํ ILSVRC-2013 ์ฐ์น์ Clarifai๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋๋ค. ํนํ ์ฃผ๋ชฉํ ์ ์, ๋๋ถ๋ถ์ ILSVRC ์ ์ถ์๋ค์ด ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ฒฐํฉํ ๋ฐ ๋ฐํด, ์ฐ๋ฆฌ๋ ๋จ 2๊ฐ ๋ชจ๋ธ๋ง ๊ฒฐํฉํ์ฌ ์ต๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ด๋ค. ๋จ์ผ ๋คํธ์ํฌ ์ฑ๋ฅ ๊ธฐ์ค์ผ๋ก๋, ์ฐ๋ฆฌ์ ์ํคํ ์ฒ๊ฐ 7.0% ํ ์คํธ ์๋ฌ๋ฅผ ๊ธฐ๋กํด ๋จ์ผ GoogLeNet๋ณด๋ค 0.9% ๋ ์ฐ์ํ๋ค. ์ค์ํ ์ ์, ์ฐ๋ฆฌ๋ LeCun et al. (1989)์ ์ ํต์ ์ธ ConvNet ์ํคํ ์ฒ์์ ๋ฒ์ด๋์ง ์์์ผ๋ฉฐ, ๋จ์ง ๊น์ด๋ฅผ ํฌ๊ฒ ํ์ฅํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค๋ ๊ฒ์ด๋ค.
๋ด์ฉ
- ๋ฐ์ดํฐ์ ์ top-1, top-5 ์๋ฌ์จ๋ก ์ธก์
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโ | โโโโโโโโโโโโโ | | ๋ฐ์ดํฐ์ | ILSVRC-2012 (1000 ํด๋์ค) | | ํ์ต ์ธํธ | 1.3M ์ด๋ฏธ์ง | | ๊ฒ์ฆ ์ธํธ | 50K ์ด๋ฏธ์ง | | ํ ์คํธ ์ธํธ | 100K ์ด๋ฏธ์ง (๋ผ๋ฒจ ๋น๊ณต๊ฐ) | | ํ๊ฐ ์งํ | Top-1 error, Top-5 error | | ์ ์ถ | ์ผ๋ถ ์คํ ๊ฒฐ๊ณผ๋ ILSVRC-2014 ๊ณต์ ์ ์ถ |
4.1. SINGLE SCALE EVALUATION
- ๋จ์ผ ์ค์ผ์ผ ํ๊ฐ ๊ฒฐ๊ณผ, ๊น์ด๊ฐ ๊น์์๋ก ์๋ฌ์จ ๊ฐ์ ํจ๊ณผ๊ฐ ํ์ธ
- ํ์ง๋ง ๋จ์ํ ๋น์ ํ์ฑ๋ง ๋๋ฆฐ 1ร1 conv ๊ตฌ์ฑ(C)์ 3ร3 conv๋ฅผ ์์ ๊ตฌ์ฑ(D)๋ณด๋ค ์ฑ๋ฅ ํ๋ฝ
- scale jittering**์ด ์ค์ํ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์์ ์คํ์ผ๋ก ์
์ฆ
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโโ | โโโโโโโโโโโโโโโ | | LRN ํจ๊ณผ | ์ฑ๋ฅ ๊ฐ์ ์์, ์คํ๋ ค ๋ถํ์ | | ๊น์ด ์ฆ๊ฐ ํจ๊ณผ | 11์ธต(A) โ 19์ธต(E)๋ก ๊ฐ์๋ก ์ค๋ฅ์จ ๊ฐ์ | | C vs D ๋น๊ต | 1ร1 conv๋ง ์ถ๊ฐ(C)๋ณด๋ค 3ร3 conv(D)๊ฐ ์ฐ์ | | ์์ vs ๊น์ | ๊น๊ณ ์์ ํํฐ > ์๊ณ ํฐ ํํฐ (์ฑ๋ฅ 7% ์ฐจ์ด) | | ๋ฐ์ดํฐ ์ฆ๊ฐ | Scale jittering์ด ์ฑ๋ฅ ํฅ์์ ํฐ ๊ธฐ์ฌ |
4.2. MULTI-SCALE EVALUATION
- ์ด ์ ์ ํ ์คํธ ์ scale jittering
- ํ์ต ์ค์ผ์ผ ๊ทผ์ฒ์ ์ฌ๋ฌ Q๋ก ํ๊ฐํ๊ฑฐ๋, ํ์ต ์์ฒด๋ฅผ jittering์ผ๋ก ํ์ ๊ฒฝ์ฐ ๋ ๋์ ๋ฒ์์์ ํ
์คํธํ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ฐ์ฅ ๊น์ ๋ชจ๋ธ(D, E)์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ด๋ฉฐ, ๋จ์ผ ๋คํธ์ํฌ ๊ธฐ์ค์ผ๋ก 24.8%/7.5% (top-1/top-5)๋ฅผ ๋ฌ์ฑํ๋ค. ํ
์คํธ ์ธํธ์์๋ E๊ฐ 7.3% top-5 ์๋ฌ๋ฅผ ๊ธฐ๋ก
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโโโโ | โโโโโโโโโโโโโ- | | ํ ์คํธ jittering | ์ฌ๋ฌ Q์์ ํ๊ฐ ํ posterior ํ๊ท | | ๊ณ ์ S ๋ชจ๋ธ ํ๊ฐ | Q = {Sโ32, S, S+32} | | jittered S ๋ชจ๋ธ ํ๊ฐ | Q = {S_min, 0.5(S_min+S_max), S_max} | | ์ต๊ณ ์ฑ๋ฅ | ๋จ์ผ ๋ชจ๋ธ, Val: 24.8% top-1 / 7.5% top-5 | | Test ์ฑ๋ฅ | Net-E, top-5 error 7.3% |
4.3 MULTI-CROP EVALUATION
- multi-crop ํ๊ฐ๊ฐ dense ํ๊ฐ๋ณด๋ค ์ฝ๊ฐ ๋ซ์ง๋ง, ๋ ๋ฐฉ์์ ๊ฒฐํฉํ๋ฉด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์ด๋ ๊ฒฝ๊ณ ์กฐ๊ฑด ์ฐจ์ด ๋๋ฌธ์ผ๋ก, crop ๊ธฐ๋ฐ์ 0 ํจ๋ฉ์ ์ฌ์ฉํ์ง๋ง dense๋ ์ฃผ๋ณ ํฝ์ ์ ๋ณด๋ฅผ ํ์ฉํด ๋ ๋์ ๋ฌธ๋งฅ์ ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ ์๋ก ๋ณด์์ ์ด๋ค.
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโโ | โโโโโโโโโโโโโโโโ- | | Dense ํ๊ฐ | ์ ์ฒด ์ด๋ฏธ์ง ์ ์ฉ (ํจ์จ์ ) | | Multi-crop ํ๊ฐ | ์ฌ๋ฌ crop ํ๊ฐ (์ ํ๋ โ, ๊ณ์ฐ๋ โ) | | ๊ฒฐํฉ ํจ๊ณผ | Dense + Multi-crop > ๊ฐ๊ฐ ๋จ๋ ์ฌ์ฉ | | ์์ธ ์ถ์ | ํฉ์ฑ๊ณฑ ๊ฒฝ๊ณ ์กฐ๊ฑด ์ฐจ์ด (zero padding vs ์ฃผ๋ณ ์ ๋ณด) |
4.4 CONVNET FUSION
- ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ฒฐํฉ(์์๋ธ)ํ๋ฉด ์ฑ๋ฅ ๊ฐ์
- VGGNet์ ์ด๊ธฐ 7๊ฐ ๋คํธ์ํฌ ์์๋ธ๋ก 7.3% ์๋ฌ๋ฅผ ๊ธฐ๋กํ์ผ๋, ์ดํ ๋จ ๋ ๋ชจ๋ธ(D+E) ์์๋ธ๋ก๋ ๋ ๋ฎ์ 6.8% ์๋ฌ๋ฅผ ๋ฌ์ฑํ๋ค. ๋ชจ๋ธ ๊ฐ ๋ณด์์ฑ์ด ํฌ๋ฉฐ, ๋ค์์ ๋ชจ๋ธ์ด ๊ผญ ํ์ํ์ง ์์์ ๋ณด์ฌ์ค
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโโ | โโโโโโโโโโโโโโโโโ | | ๋ฐฉ๋ฒ | ์ฌ๋ฌ ๋ชจ๋ธ soft-max posterior ํ๊ท | | ์ด๊ธฐ ์์๋ธ | 7๊ฐ ๋ชจ๋ธ (๋จ์ผยทmulti-scale ํผํฉ), 7.3% error | | ๊ฐ์ ๋ ์์๋ธ | 2๊ฐ ๋ชจ๋ธ (D+E), dense: 7.0%, dense+multi-crop: 6.8% | | ๋จ์ผ ๋ชจ๋ธ ์ฑ๋ฅ | ๋ชจ๋ธ E, 7.1% error | | ์๋ฏธ | ์์๋ธ ๋ณด์์ฑ, ์ ์ ๋ชจ๋ธ๋ก๋ ๋์ ์ฑ๋ฅ ๊ฐ๋ฅ |
4.5 Comparison with the State of the Art
๐ A. Localisation
๋ฒ์ญ
1
๊ฐ์ฒด ์์น ์ถ์ ์ ์ํํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋ง์ง๋ง ์์ ์ฐ๊ฒฐ ์ธต์ด ํด๋์ค ์ ์๊ฐ ์๋๋ผ ๊ฒฝ๊ณ ์์(bounding box) ์์น๋ฅผ ์์ธกํ๋ ๋งค์ฐ ๊น์ ConvNet์ ์ฌ์ฉํ๋ค. ๊ฒฝ๊ณ ์์๋ ์ค์ฌ ์ขํ, ๋๋น, ๋์ด๋ฅผ ์ ์ฅํ๋ 4์ฐจ์ ๋ฒกํฐ๋ก ํํ๋๋ค. ๊ฒฝ๊ณ ์์ ์์ธก์ ๋ชจ๋ ํด๋์ค์ ๋ํด ๊ณต์ ๋ ์๋(single-class regression, SCR (Sermanet et al., 2014)), ํด๋์ค๋ณ๋ก ๊ฐ๋ณ์ ์ผ ์๋ ์๋ค(per-class regression, PCR). ์ ์์ ๊ฒฝ์ฐ ๋ง์ง๋ง ์ธต์ 4์ฐจ์์ด๊ณ , ํ์์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ์ 1000 ํด๋์ค๊ฐ ์์ผ๋ฏ๋ก 4000์ฐจ์์ด ๋๋ค. ๋ง์ง๋ง ๊ฒฝ๊ณ ์์ ์์ธก ์ธต์ ์ ์ธํ๋ฉด, ๋ถ๋ฅ ๊ณผ์ ์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ ConvNet ์ํคํ ์ฒ D(ํ 1, 16๊ฐ์ ๊ฐ์ค์น ์ธต)๋ฅผ ์ฌ์ฉํ๋ค.
ํ๋ จ. localisation ConvNet ํ๋ จ์ ๋ถ๋ฅ ConvNet ํ๋ จ(3.1์ )๊ณผ ์ ์ฌํ๋ค. ์ฃผ์ ์ฐจ์ด๋ ๋ก์ง์คํฑ ํ๊ท ๋ชฉ์ ํจ์ ๋์ ์ ํด๋ฆฌ๋ ์์ค(Euclidean loss)์ ์ฌ์ฉํ์ฌ ์์ธก๋ ๊ฒฝ๊ณ ์์ ๋งค๊ฐ๋ณ์์ ์ ๋ต์ ์ฐจ์ด๋ฅผ ๋ฒ์ ํํ๋ค๋ ์ ์ด๋ค. ์ฐ๋ฆฌ๋ ๋ ๊ฐ์ localisation ๋ชจ๋ธ์ ๋จ์ผ ์ค์ผ์ผ(S=256, S=384)์์ ๊ฐ๊ฐ ํ์ตํ๋ค(์๊ฐ ์ ์ฝ์ผ๋ก ์ธํด ILSVRC-2014 ์ ์ถ์์๋ scale jittering์ ์ฌ์ฉํ์ง ์์). ํ๋ จ์ ๋์ผํ ์ค์ผ์ผ์์ ํ์ต๋ ๋ถ๋ฅ ๋ชจ๋ธ๋ก ์ด๊ธฐํ๋์์ผ๋ฉฐ, ์ด๊ธฐ ํ์ต๋ฅ ์ 10^โ3์ผ๋ก ์ค์ ํ๋ค. ๋ํ Sermanet et al. (2014)์ฒ๋ผ ๋ชจ๋ ์ธต์ fine-tuningํ๋ ๋ฐฉ๋ฒ๊ณผ ์ฒซ ๋ ๊ฐ FC ์ธต๋ง fine-tuningํ๋ ๋ฐฉ๋ฒ์ ๋ชจ๋ ํ์ํ๋ค. ๋ง์ง๋ง FC ์ธต์ ๋ฌด์์๋ก ์ด๊ธฐํํ๊ณ ์ฒ์๋ถํฐ ํ์ตํ๋ค.
ํ ์คํธ. ๋ ๊ฐ์ง ํ ์คํธ ํ๋กํ ์ฝ์ ๊ณ ๋ คํ๋ค. ์ฒซ ๋ฒ์งธ๋ ๊ฒ์ฆ ์ธํธ์์ ๋คํธ์ํฌ ์์ ์ ํจ๊ณผ๋ฅผ ๋น๊ตํ๊ธฐ ์ํ ๊ฒ์ผ๋ก, ๋ถ๋ฅ ์ค๋ฅ๋ฅผ ๋ฐฐ์ ํ๊ธฐ ์ํด ์ ๋ต ํด๋์ค์ ๋ํด์๋ง ๊ฒฝ๊ณ ์์๋ฅผ ์์ธกํ๋ค. ์ด๋ ๊ฒฝ๊ณ ์์๋ ์ด๋ฏธ์ง ์ค์ crop์ ๋คํธ์ํฌ๋ฅผ ์ ์ฉํด ์ป๋๋ค.
๋ ๋ฒ์งธ, ์์ ํ ํ ์คํธ ์ ์ฐจ๋ ๋ถ๋ฅ ๊ณผ์ (3.2์ )์ ์ ์ฌํ๊ฒ localisation ConvNet์ ์ด๋ฏธ์ง ์ ์ฒด์ ์กฐ๋ฐํ๊ฒ ์ ์ฉํ๋ค. ์ฐจ์ด์ ์ ๋ง์ง๋ง FC ์ธต ์ถ๋ ฅ์ด ํด๋์ค ์ ์ ๋งต์ด ์๋๋ผ ๊ฒฝ๊ณ ์์ ์์ธก ์งํฉ์ด๋ผ๋ ์ ์ด๋ค. ์ต์ข ์์ธก์ ๋ง๋ค๊ธฐ ์ํด ์ฐ๋ฆฌ๋ Sermanet et al. (2014)์ greedy ๋ณํฉ ์ ์ฐจ๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ ๋จผ์ ๊ณต๊ฐ์ ์ผ๋ก ๊ฐ๊น์ด ์์ธก๋ค์ ๋ณํฉ(์ขํ ํ๊ท )ํ๊ณ , ์ดํ ๋ถ๋ฅ ConvNet์์ ์ป์ ํด๋์ค ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ญํน์ ๋งค๊ธด๋ค. ์ฌ๋ฌ localisation ConvNet์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ๋จผ์ ๊ฐ ConvNet์ ์์ธก์ ํฉ์ณ(union) ๋ณํฉ ์ ์ฐจ๋ฅผ ์ ์ฉํ๋ค. Sermanet et al. (2014)์ multiple pooling offsets ๊ธฐ๋ฒ(๊ฒฝ๊ณ ์์ ์์ธก์ ๊ณต๊ฐ ํด์๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ)์ ์ฌ์ฉํ์ง ์์๋ค.
2
์ด๋ฒ ์ ์์๋ ๋จผ์ ์ฒซ ๋ฒ์งธ ํ ์คํธ ํ๋กํ ์ฝ์ ์ด์ฉํด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ localisation ์ค์ ์ ๊ฒฐ์ ํ๊ณ , ์ดํ ๋ ๋ฒ์งธ ํ๋กํ ์ฝ์ ์ฌ์ฉํ ์์ ํ ์๋๋ฆฌ์ค์์ ์ด๋ฅผ ํ๊ฐํ๋ค. localisation ์ค๋ฅ๋ ILSVRC ๊ธฐ์ค(Russakovsky et al., 2014)์ ๋ฐ๋ผ ์ธก์ ๋๋ฉฐ, ์์ธก๋ ๊ฒฝ๊ณ ์์๊ฐ ์ ๋ต ๊ฒฝ๊ณ ์์์์ ๊ต์งํฉ-ํฉ์งํฉ ๋น์จ(IoU)์ด 0.5 ์ด์์ผ ๋ ์ ๋ต์ผ๋ก ๊ฐ์ฃผ๋๋ค. ์ค์ ๋น๊ต. ํ 8์์ ๋ณด๋ฏ์ด, per-class regression (PCR)์ด ํด๋์ค ๋นํน์ (single-class) ํ๊ท(SCR)๋ณด๋ค ์ฐ์ํ๋ค. ์ด๋ PCR์ด SCR๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์๋ Sermanet et al. (2014)์ ๊ฒฐ๊ณผ์๋ ๋ค๋ฅด๋ค. ๋ํ localisation ๊ณผ์ ์์ ๋ชจ๋ ์ธต์ fine-tuningํ๋ ๊ฒ์ด, Sermanet et al. (2014)์ฒ๋ผ FC ์ธต๋ง fine-tuningํ๋ ๊ฒ๋ณด๋ค ๋์ ๋๊ฒ ์ฑ๋ฅ์ด ์ข์๋ค. ์ด ์คํ์์๋ ์ต์ ์ด๋ฏธ์ง ๋ณ์ S=384๋ก ์ค์ ํ๋ค. S=256์ ๊ฒฐ๊ณผ๋ ๋์ผํ ๊ฒฝํฅ์ ๋ณด์์ผ๋, ๊ฐ๊ฒฐ์ฑ์ ์ํด ์๋ตํ๋ค.
์์ ํ ํ๊ฐ. ์ต์ ์ ์ค์ (PCR, ๋ชจ๋ ์ธต fine-tuning)์ ์ฐพ์ ํ, ์ด๋ฅผ ์์ ํ ์๋๋ฆฌ์ค์ ์ ์ฉํ๋ค. ์ฌ๊ธฐ์๋ 4.5์ ์ ์ต๊ณ ์ฑ๋ฅ ๋ถ๋ฅ ์์คํ ์ ์ฌ์ฉํด top-5 ํด๋์ค ๋ผ๋ฒจ์ ์์ธกํ๊ณ , ์ฌ๋ฌ ์กฐ๋ฐํ๊ฒ ๊ณ์ฐ๋ bounding box ์์ธก๋ค์ Sermanet et al. (2014)์ ๋ฐฉ๋ฒ์ผ๋ก ๋ณํฉํ๋ค. ํ 9์์ ๋ณด๋ฏ์ด, localisation ConvNet์ ์ ์ฒด ์ด๋ฏธ์ง์ ์ ์ฉํ๋ ๊ฒ์ ์ค์ crop๋ง ์ฌ์ฉํ ๊ฒ(ํ 8)๋ณด๋ค ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ๋ค. ์ด๋ ์ ๋ต ๋ผ๋ฒจ์ด ์๋ ์์ธก๋ top-5 ๋ผ๋ฒจ์ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ ๊ทธ๋ ๋ค. ๋ถ๋ฅ ๊ณผ์ (4์ )์ ์ ์ฌํ๊ฒ, ์ฌ๋ฌ ์ค์ผ์ผ์์ ํ ์คํธํ๊ณ ๋ค์ ๋คํธ์ํฌ์ ์์ธก์ ๊ฒฐํฉํ๋ฉด ์ฑ๋ฅ์ด ์ถ๊ฐ๋ก ํฅ์๋๋ค.
์ต์ฒจ๋จ๊ณผ์ ๋น๊ต. ์ฐ๋ฆฌ์ ์ต๊ณ localisation ๊ฒฐ๊ณผ๋ฅผ ํ 10์์ ๊ธฐ์กด ์ต์ฒจ๋จ๊ณผ ๋น๊ตํ๋ค. ํ ์คํธ ์๋ฌ 25.3%๋ก, โVGGโ ํ์ ILSVRC-2014 localisation ๊ณผ์ ์์ ์ฐ์นํ๋ค(Russakovsky et al., 2014). ์ฃผ๋ชฉํ ์ ์, ์ฐ๋ฆฌ๋ Overfeat (Sermanet et al., 2014, ILSVRC-2013 ์ฐ์น)๋ณด๋ค ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋๋ฐ, ๋ ์ ์ ์ค์ผ์ผ์ ์ฌ์ฉํ๊ณ ๊ทธ๋ค์ ํด์๋ ํฅ์ ๊ธฐ๋ฒ(resolution enhancement)๋ ์ฌ์ฉํ์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ ๊ทธ๋ ๋ค. ๋ง์ฝ ์ด ๊ธฐ๋ฒ์ ๊ฒฐํฉํ๋ค๋ฉด ๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์ ๊ฒ์ด๋ค. ์ด๋ ๋งค์ฐ ๊น์ ConvNet์ด ๊ฐ์ ธ์จ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค โ ๋ ๋จ์ํ localisation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์์๋ ๋ ๊ฐ๋ ฅํ ํํ ๋๋ถ์ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
๋ด์ฉ
1
- ๋ง์ง๋ง clf.๊ฐ ํด๋์ค ์ ์๊ฐ ์๋๋ผ, bounding box๋ฅผ ์์ธกํ๋ convnet์ ์ฌ์ฉ
- bounding box : ์ค์ฌ ์ขํ, ๋๋น, ๋์ด๋ฅผ ์ ์ฅํ๋ 4์ฐจ์ vec.
- ๊ฒฝ๊ณ์์ ์์ธก์ ๊ณต์ ๋ ์๋, ํด๋์ค๋ณ๋ก ๊ฐ๋ณ์ ์ผ ์๋ ์๋ค.
- Signle-class reg., SCR : ๋ง์ง๋ง์ธต 4์ฐจ์
- per-class reg., PCR : ๋ง์ง๋ง์ธต 4์ฐจ์ x 1000ํด๋์ค
- Loss์ ๋ณ๊ฒฝ : Logistic reg.์์ L2 loss์ผ๋ก ๋ณ๊ฒฝํ์ฌ, ๊ฒฝ๊ณ์์์ ์์ธก๊ณผ ์ ๋ต์ ๋ฒ์ ํ ์งํ
- ๋ ์ค์ผ์ผ์ ๋ํ์ฌ ํ์ต
- ํ
์คํธ์ ์ต์ข
์์ธก์ ๋ง๋ค๊ธฐ ์ํด ์ฐ๋ฆฌ๋ Sermanet et al. (2014)์ greedy ๋ณํฉ ์ ์ฐจ๋ฅผ ์ฌ์ฉ
- ๊ณต๊ฐ์ ์ผ๋ก ๊ฐ๊น์ด ์์ธก๋ค์ ๋ณํฉ(์ขํ ํ๊ท )ํ๊ณ , ์ดํ ๋ถ๋ฅ ConvNet์์ ์ป์ ํด๋์ค ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ญํน์ ๋งค๊ธด๋ค
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ | | โโโโ | โโโโโโโโโโโโโโโโ | | ๊ณผ์ | ILSVRC 2014 localisation (25.3% error, ์ฐ์น) | | ์ํคํ ์ฒ | ConvNet-D (16์ธต), ๋ง์ง๋ง ์ธต โ bounding box ์์ธก | | ๋ ์ด๋ธ ๋ฐฉ์ | SCR (๊ณต์ , 4D) vs PCR (ํด๋์ค๋ณ, 4000D) | | ์์ค ํจ์ | Euclidean loss | | ์ด๊ธฐํ | ๋ถ๋ฅ ๋ชจ๋ธ ๊ฐ์ค์น ์ฌ์ฌ์ฉ, ๋ง์ง๋ง FC ๋ฌด์์ ์ด๊ธฐํ | | ํ ์คํธ ๋ฐฉ์ | โ GT ํด๋์ค ์ค์ crop, โก Dense + greedy merging |
2
- ์ต์ ์ค์ (PCR + all layers fine-tuning)
- ๊น์ ๋คํธ์ํฌ ์์ฒด๊ฐ ๊ฐ๋ ฅํ ํํ๋ ฅ
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ํ๊ฐ ๊ธฐ์ค | IoU โฅ 0.5 (ILSVRC) |
| ์ค์ ๋น๊ต | PCR > SCR, All layers fine-tuning > FC-only |
| ์ต์ ์ค์ | PCR + ๋ชจ๋ ์ธต fine-tuning |
| ์ ์ฒด ํ๊ฐ | Dense ์ ์ฉ + greedy merging + multi-scale |
| ์ต์ข ์ฑ๊ณผ | 25.3% error, ILSVRC 2014 localisation ์ฐ์น |
| ๋น๊ต | VGG > OverFeat (๋ ๋จ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ ๋์ ๊ฒฐ๊ณผ) |
๐ B. Generalisation of Very Deep Features
๋ฒ์ญ
์ ์ ๋ค์์๋ ILSVRC ๋ฐ์ดํฐ์ ์์ ๋งค์ฐ ๊น์ ConvNet์ ํ์ต๊ณผ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์๋ค. ์ด๋ฒ ์ ์์๋ ILSVRC์์ ์ฌ์ ํ์ต๋ ConvNet์ ๋ค๋ฅธ ๋ ์์ ๋ฐ์ดํฐ์ ์ ํน์ง ์ถ์ถ๊ธฐ(feature extractor)๋ก ํ๊ฐํ๋ค. ์์ ๋ฐ์ดํฐ์ ์์๋ ๊ณผ์ ํฉ(over-fitting) ๋ฌธ์ ๋ก ์ธํด ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ํ์ตํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ต๊ทผ ์ด๋ฌํ ์ฌ์ฉ ์ฌ๋ก์ ๋ํ ๊ด์ฌ์ด ์ปค์ก๋๋ฐ(Zeiler & Fergus,![[Obsidian Vault ๊ฐ์๋ณธ]] 2013; Donahue et al., 2013; Razavian et al., 2014; Chatfield et al., 2014), ILSVRC์์ ํ์ต๋ ์ฌ์ธต ์ด๋ฏธ์ง ํํ์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์๋ ์ ์ผ๋ฐํ๋๋ฉฐ, ์์์ ์ผ๋ก ์ค๊ณ๋ ํํ(hand-crafted representations)์ ํฐ ์ฐจ์ด๋ก ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค. ์ด ์ฐ๊ตฌ ํ๋ฆ์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ด ๊ธฐ์กด state-of-the-art ๋ฐฉ๋ฒ์์ ์ฌ์ฉ๋ ์์ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ด๋์ง๋ฅผ ์กฐ์ฌํ๋ค. ์ด ํ๊ฐ์์๋ ILSVRC์์ ๊ฐ์ฅ ์ข์ ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ธ ๋ ๋ชจ๋ธ(4์ฅ์์ ์ค๋ช ) โ ๊ตฌ์ฑ โNet-Dโ์ โNet-Eโ๋ฅผ ๊ณ ๋ คํ๋ค(์ด ๋ ๋ชจ๋ธ์ ๊ณต๊ฐ๋จ). ILSVRC์์ ์ฌ์ ํ์ต๋ ConvNet์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง ๋ถ๋ฅ์ ํ์ฉํ๊ธฐ ์ํด, ๋ง์ง๋ง FC ์ธต(1000-way ILSVRC ๋ถ๋ฅ ์ํ)์ ์ ๊ฑฐํ๊ณ ,ๅ์ ๋ ๋ฒ์งธ ์ธต์ 4096์ฐจ์ ํ์ฑ๊ฐ์ ์ด๋ฏธ์ง ํน์ง์ผ๋ก ์ฌ์ฉํ๋ค. ์ด ํน์ง์ ์ฌ๋ฌ ์์น์ ์ค์ผ์ผ์์ ์ง๊ณ๋๋ฉฐ, L2 ์ ๊ทํ ํ ๋์ ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ์ ํ SVM ๋ถ๋ฅ๊ธฐ์ ์ ๋ ฅ๋๋ค. ๋จ์ํ๋ฅผ ์ํด, ์ฌ์ ํ์ต๋ ConvNet ๊ฐ์ค์น๋ ๊ณ ์ ๋๋ฉฐ(fine-tuning ์์), ๋ณํ์ง ์๋๋ค.
ํน์ง ์ง๊ณ๋ ILSVRC ํ๊ฐ ์ ์ฐจ(3.2์ )์ ์ ์ฌํ๊ฒ ์ํ๋๋ค. ์ฆ, ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ฅ ์งง์ ๋ณ์ด Q๊ฐ ๋๋๋ก ๋ฆฌ์ค์ผ์ผํ ๋ค, ๋คํธ์ํฌ๋ฅผ ์ด๋ฏธ์ง ํ๋ฉด ์ ์ฒด์ ์กฐ๋ฐํ๊ฒ ์ ์ฉํ๋ค(๋ชจ๋ ๊ฐ์ค์น ์ธต์ ํฉ์ฑ๊ณฑ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ผ๋ฏ๋ก ๊ฐ๋ฅํ๋ค). ์ดํ ๊ฒฐ๊ณผ feature map์ ๋ํด ์ ์ญ ํ๊ท ํ๋ง(global average pooling)์ ์ํํด 4096์ฐจ์ ์ด๋ฏธ์ง ๊ธฐ์ ์๋ฅผ ์ป๋๋ค. ์ด ๊ธฐ์ ์๋ ์ข์ฐ ๋ฐ์ ๋ ์ด๋ฏธ์ง์ ๊ธฐ์ ์์ ํ๊ท ๋๋ค. 4.2์ ์์ ๋ณด์๋ฏ, ๋ค์ค ์ค์ผ์ผ ํ๊ฐ๊ฐ ์ ๋ฆฌํ๊ธฐ ๋๋ฌธ์, ์ฌ๋ฌ Q์์ ํน์ง์ ์ถ์ถํ๋ค. ๊ฒฐ๊ณผ๋ก ์ป์ด์ง multi-scale ํน์ง์ ์ค์ผ์ผ ๊ฐ์ ์๊ฑฐ๋(stack) ํ๊ท ํ ์ ์๋ค. stacking์ ๋ถ๋ฅ๊ธฐ๊ฐ ๋ค์ํ ์ค์ผ์ผ์ ์ด๋ฏธ์ง ํต๊ณ๋ฅผ ์ต์ ์ผ๋ก ๊ฒฐํฉํ๋๋ก ํ์ตํ ์ ์๊ฒ ํ์ง๋ง, ๊ธฐ์ ์์ ์ฐจ์์ด ์ฆ๊ฐํ๋ ๋น์ฉ์ด ๋ฐ๋ฅธ๋ค. ์๋ ์คํ์์ ์ด ์ค๊ณ ์ ํ์ ๋ค์ ๋ ผ์ํ๋ค. ๋ํ ๋ ๋คํธ์ํฌ(Net-D, Net-E)๋ฅผ ์ฌ์ฉํ ๋ ๊ฐ๊ฐ์ ๊ธฐ์ ์๋ฅผ ์์ late fusion์ ์ํํ๋ ๊ฒ๋ ํ๊ฐํ๋ค.
๋ด์ฉ
๋ง์ง๋ง 1000-way FC๋ ์ ๊ฑฐํ๊ณ 4096์ฐจ์ ๋ฒกํฐ๋ฅผ ํ์ฉํ๋ค. ๋ค์ค ์ค์ผ์ผ ํน์ง์ ํ๊ท (pooling)ํ๊ฑฐ๋ ์๊ธฐ(stacking)๋ก ๊ฒฐํฉํ ์ ์์ผ๋ฉฐ, ๋ ๋คํธ์ํฌ ํน์ง๋ late fusion์ด ๊ฐ๋ฅํ๋ค. Fine-tuning์ ํ์ง ์์๋ค.
ํฌ์ธํธ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋์ ๋ฌธ์ | ์์ ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ์ต ๋ชจ๋ธ ํ์ฉ |
| ์ฌ์ฉ ๋ชจ๋ธ | Net-D (16์ธต), Net-E (19์ธต), ILSVRC ์ฌ์ ํ์ต |
| ํน์ง ์ถ์ถ | FC-4096 ์ฐจ์ ๋ฒกํฐ, ๋ง์ง๋ง FC ์ ๊ฑฐ |
| ๋ถ๋ฅ๊ธฐ | Linear SVM |
| ์ค์ผ์ผ ์ฒ๋ฆฌ | Multi-scale Q, pooling vs stacking |
| ๊ฒฐํฉ ๋ฐฉ์ | Net-D & Net-E late fusion (descriptor stacking) |





