(ZFNet) Visualizing and Understanding Convolutional Networks
๐ ์ ๋ฆฌ
๐ ์ ๋ชฉ
Visualizing and Understanding Convolutional Networks
๐ ์ด๋ก
0. ์ด๋ก
- ์ ConvNet์ด ์๋ํ๋์ง ๋ช ํํ ์ดํด๊ฐ ๋ถ์กฑํ๋ค, ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ์ ์ผ๋ก ์ด๋ป๊ฒ ๊ฐ์ ๋ ์ ์๋์ง์ ๋ํ ์ดํด๊ฐ ๋ถ์กฑํ๋ค.
- ์ง๋จ์ ๋๊ตฌ ์ ์ : ์ค๊ฐ ํน์ง ์ถ์ถ(intermediate feature layers)์ ๊ธฐ๋ฅ๊ณผ ๋ถ๋ฅ๊ธฐ์ ๋์์ ์ดํด โ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ํคํ ์ฒ๋ฅผ ์ฐพ์๋ด๋ ๋ฐ ๋์์ ์ค๋ค. ์ฆ ๋์ผ๋ก ์ดํดํ ์ ์๋ค(๋ธ๋๋ฐ์ค ๋ถ๋ถ์ ํ์ดํธ๋ฐ์ค๋ก)
- ablation study ์ํ
- ZFNet๊ฐ๋ฐ - ์ ์ด๋ฅ๋ ฅ ํ์ธ
์ ๋ฆฌ
ํญ๋ชฉ ๋ด์ฉ ๋ฐ์ดํฐ์ ImageNet 2012, Caltech-101, Caltech-256 ๋ชจ๋ธ ๊ตฌ์กฐ AlexNet ๊ธฐ๋ฐ, stride/filter ๊ฐ์ , softmax ์ถ๋ ฅ ์ฐ๊ตฌ ๊ธฐ์ฌ Deconvnet ์๊ฐํ, ๊ตฌ์กฐ ์ต์ ํ, ablation, ์ ์ดํ์ต ํ๊ฐ ๊ฒฐ๊ณผ ImageNet์์ AlexNet๋ณด๋ค ๋ฎ์ ์ค๋ฅ์จ, Caltech์์ SOTA ๋ฌ์ฑ
๐ก ๊ฒฐ๋ก & ๊ณ ์ฐฐ
6. Discussion
- ์๊ฐํํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํจ์ผ๋ก์, feature๋ค์ด ๋ฌด์์์ ์ด๊ฑฐ๋ ํด์ ๋ถ๊ฐ๋ฅํ ํจํด์ด ์๋์ด ๋ค์ด๋ฌ์
- ๊ณ์ธต์ด ๊น์ด์ง์๋ก compositionality(์กฐํฉ์ฑ), invariance(๋ถ๋ณ์ฑ), class discrimination(ํด๋์ค ๊ตฌ๋ณ) ๋ฑ ์ง๊ด์ ์ธ ํน์ฑ๋ค์ด ๋ณด์๋ค.
- ์๊ฐํ ๊ธฐ๋ฒ์ด ๋ชจ๋ธ ๋๋ฒ๊น ์ ์ฌ์ฉ๋ ์ ์๋ค. AlexNet ์ฑ๋ฅ์ ํฅ์
- Occlusion(๊ฐ๋ฆผ) ์คํ์ ํตํด, clf.๊ฐ scene context(์ฅ๋ฉด์ ๊ด๋ฒ์ํ ๋งฅ๋ฝ)์ ์ฌ์ฉํ๋๊ฒ์ด ์๋๋ผ, ์ด๋ฏธ์ง์ local structure(๊ตญ์์ ๊ตฌ์กฐ)์ ๋งค์ฐ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ค๋ ๊ฒ์ ์ ์ฆํจ.
- Ablation study๋ฅผ ํตํด ๊ฐ๋ณ ๊ณ์ธต์ด ์๋๋ผ ๋คํธ์ํฌ๊ฐ ๊ฐ์ง๋ minimum depth(์ต์ํ์ ๊น์ด)๊ฐ ์ฑ๋ฅ์ ํ์์ ์ด๋ค.
- ์ ์ด ํ์ต์ ํจ์ฉ์ฑ์ ์ฆ๋ช ํ๋ค(์ผ๋ฐํ ์ฑ๋ฅ), ๊ทธ๋ฌ๋ PASCAL๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์์ dataset bias๋๋ฌธ์, ์ผ๋ฐํ๊ฐ ์ฝํ์ผ๋ ๊ทธ ๋ง์ ๋ ๋ฎ์ ๊ฐ์์๋ค. โ ๊ฐ์ฒดํ์ง๊น์ง ์์ฐ์ค๋ฝ๊ฒ ํ์ฅ๋ ์ ์๋ค.
ํต์ฌ
- convnet์ ํด์๊ฐ๋ฅํ๊ณ , ๊ณ์ธต์ด ๊น์ด์ง์๋ก ์ถ์ํ, ๋ถ๋ณ์ฑ์ด ์ฆ๊ฐ
- ์๊ฐํ : ๋จ์ ์๊ฐ ์ค๋ช ๋๊ตฌ๊ฐ ์๋๋ผ, ๋ชจ๋ธ ๋๋ฒ๊น (๊ฐ์ ์ฉ)์ ์ฌ์ฉ๊ฐ๋ฅ
- Occlusion : ๋ชจ๋ธ์ ๋งฅ๋ฝ๋ณด๋ค, ์ง์ง ๊ฐ์ฒด ๊ตฌ์กฐ(local structure)์ ์ง์ค
- Ablation : ๋ชจ๋ธ์ ์ธต์ ๋ด๋ฐ์๋ณด๋ค, ์ถฉ๋ถํ ๊น์ด๊ฐ ์ฑ๋ฅ์ ํต์ฌ
- ์ ์ดํ์ต ํน์ ๋ฐ์ดํฐ์ ์์ ํจ๊ณผ์ , ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ์ bias๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค๋ฉด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ํจ๊ณผ์ ์ผ๊ฑฐ๋ผ ์์
- ImageNet โ Caltech(์์ ๋ฐ์ดํฐ์ ) : ํจ๊ณผ์
- ์ญ์ ํจ๊ณผ์ ์ธ์ง ์๋ฌธ
- ๋๊ท๋ชจ๋ฐ์ดํฐ์ ์ด๋๋ผ๋ ๋ชจ๋ ๋๋ฉ์ธ์ ์์ ํ ์ ์ด๋์ง ์์ โ ์์คํจ์๋ฅผ ์๋ณธ๋ค๋ฉด ๋ ํฅ์๋์ง ์์๊น?
5์ค ์์ฝ
- ConvNet ํน์ง์ ๋ฌด์์๊ฐ ์๋๋ผ ์ ์ง์ ์ผ๋ก ์ถ์ํ๋๋ ์๋ฏธ ์๋ ํํ
- Deconvnet ์๊ฐํ๋ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ ์ ์ ์ฉํ ์ง๋จ ๋๊ตฌ
- ๋ชจ๋ธ์ ๊ตญ์์ ๊ตฌ์กฐ๋ฅผ ์ ์ก์๋ด๋ฉฐ ๊น์ด๊ฐ ํ์์ ์์ ํ์ธ
- ImageNet ํ์ต ๋ชจ๋ธ์ Caltech ๊ณ์ด์์ SOTA ๋ฌ์ฑ, ์์ ๋ฐ์ดํฐ์ ๋ฒค์น๋งํฌ์ ํ๊ณ ์ ๊ธฐ
- PASCAL์์๋ ์ผ๋ฐํ๊ฐ ์ ํ์ โ dataset bias, loss function ๊ฐ์ ํ์
์ ๋ฆฌ
ํญ๋ชฉ ๋ด์ฉ ์๊ฐํ ๋ฐ๊ฒฌ ํน์ง์ ์ถ์ํยท๋ถ๋ณ์ฑยทํด๋์ค ๊ตฌ๋ณ์ ์ ์ฐจ ๊ฐํ Occlusion ๊ฐ์ฒด ์์น์ ๋ฏผ๊ฐ โ ๋ฐฐ๊ฒฝ ๋งฅ๋ฝ๋ง ์ด์ฉํ์ง ์์ Ablation ํน์ ์ธต๋ณด๋ค ๊น์ด(depth) ์์ฒด๊ฐ ํต์ฌ ์ ์ด ์ฑ๋ฅ Caltech-101/256์์ SOTA, PASCAL์ dataset bias๋ก ๋ค์ ์ ํ ์์ฌ์ ์์ ๋ฒค์น๋งํฌ์ ์ ํจ์ฑ ์ฌ๊ฒํ , loss function ๊ฐ์ ์ ๊ฐ์ฒด ํ์ง๋ก ํ์ฅ ๊ฐ๋ฅ
๐๏ธ ๋ฐ์ดํฐ
๋ฐ์ดํฐ์ (์๋ต)
๋ฐ์ดํฐ์ ํฌ๊ธฐ/๊ตฌ์ฑ ํน์ง ํ์ฉ ๋ชฉ์ ImageNet 2012 130๋ง ํ์ต / 5๋ง ๊ฒ์ฆ / 10๋ง ํ ์คํธ, 1000 ํด๋์ค ๋๊ท๋ชจ, ๊ฐ์ฒด ์ค์ฌ ConvNet ํ์ต ๋ฐ ์ฑ๋ฅ ํ๊ฐ Caltech-101 101 ํด๋์ค, ํด๋์ค๋น 15~30 ํ์ต, ์ต๋ 50 ํ ์คํธ ์๊ท๋ชจ, ๋จ์ ๊ฐ์ฒด ์ ์ดํ์ต ํจ๊ณผ ๊ฒ์ฆ Caltech-256 256 ํด๋์ค, ํด๋์ค๋น 15~60 ํ์ต ํด๋์ค ์ ๋ง๊ณ ๋ค์์ฑ ํผ ์ ์ดํ์ต ๊ฐ๊ฑด์ฑ ํ๊ฐ PASCAL VOC 2012 20 ํด๋์ค, ์ฅ๋ฉด ๋ด ๋ค์ค ๊ฐ์ฒด ํฌํจ ๋ณต์กํ ์ฅ๋ฉด, multi-object ConvNet ์ผ๋ฐํ ํ๊ณ ํ์ธ
๐ ์๋ก
1. ์๋ก
- 1990๋ ์ด ์ฒ์ ์ ์๋ CNN์ AlexNet(2012)๋ถํฐ ํ๊ธฐ์ ์ธ ๋ชจ๋ธ๋ก ๋ฐ์ ํด ์๋ค. ๊ทธ ์ด์ ๋
- ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ์ ์ ์ด์ฉ ๊ฐ๋ฅ์ฑ
- GPU์ ๊ตฌํ
- ์ ๊ทํ ๊ธฐ๋ฒ(Dropout, etc.)
- ๊ทธ๋ฌ๋ Blackbox(๋ด๋ถ ๋ฉ์ปค๋์ฆ ๋ถ๋ช ํ)์ด๊ธฐ ๋๋ฌธ์, ๋ ๋์ ๋ชจ๋ธ ๊ฐ๋ฐ์ด ๋จ์ํ ์ํ์ฐฉ์ค์ ์์กดํ ์ ๋ฐ์ ์๋ค. ๊ทธ๋์ ์ด๋ค ๊ณ์ธต์์ feature map์ ์๊ฐํํ๋ ๊ธฐ๋ฒ์ ์ ๊ณตํ๊ณ , ์ด๋ ์ด๋ค ํน์ง์ด ์ด๋ป๊ฒ ์งํํ๋์ง ๊ด์ฐฐํ๊ณ ๋ชจ๋ธ์ ์ง๋จํ ์ ์๋ค.
- Deconvolutional Network(deconvnet, (Zeiler et al., 2011))์ ํ์ฉํ์ฌ, feature activation์ ๋ค์ ํฝ์ ๊ณต๊ฐ์ผ๋ก ํฌ์ํ๋ค. ๋ ์ด๋ฏธ์ง์ ์ผ๋ถ๋ฅผ ๊ฐ๋ ค์ ๋ถ๋ฅ์ ๋ฏผ๊ฐ๋๋ฅผ ๋ถ์ํ์ฌ ์ด๋ค ๋ถ๋ถ์ด ๋ถ๋ฅ์ ์ค์ํ์ง ํ์ธํ๋ค.
- ์ด๋ฌํ ๊ธฐ๋ฒ๋ค์ ํ์ฉํ์ฌ AlexNet์์ ์ข ๋ ๋ฐ์ ํ ZFNet์ ๋ง๋ค์๋ค.
โ 5์ค ์์ฝ
- ConvNet์ ์ต๊ทผ ImageNet ๋ฑ์์ ์ฑ๋ฅ์ ํ์ ์ ์ผ๋ก ๊ฐ์
- ๊ทธ๋ฌ๋ ๋ด๋ถ ๋ฉ์ปค๋์ฆ์ ์ฌ์ ํ ๋ถ๋ช ํ
- ๋ณธ ๋ ผ๋ฌธ์ deconvnet ๊ธฐ๋ฐ ์๊ฐํ๋ก ์ด๋ฅผ ๋ถ์
- ๋ชจ๋ธ ๊ตฌ์กฐ ๊ฐ์ ๋ฐ ์ง๋จ ๊ฐ๋ฅ์ฑ์ ์ ์
- ImageNet ํ์ต ํน์ง์ด ์ ์ดํ์ต์์๋ ํ์ํจ์ ๋ณด์
๐ ์ ๋ฆฌ
ํญ๋ชฉ ๋ด์ฉ ๋ฐฐ๊ฒฝ ConvNet ์ฑ๋ฅ ๊ธ์์น (CIFAR-10, ImageNet ๋ฑ) ํ๊ณ ๋ด๋ถ ๋์ ์๋ฆฌ์ ๋ํ ์ดํด ๋ถ์กฑ ๊ธฐ์ฌ ์๊ฐํ ๊ธฐ๋ฒ ์ ์ (deconvnet, occlusion) ์ฐ๊ตฌ ์ ๋ต AlexNet ๊ตฌ์กฐ โ ๊ฐ์ โ ์๊ฐํ ๊ธฐ๋ฐ ์ง๋จ โ ์ ์ด ์ฑ๋ฅ ํ์ธ ์ฌ์ ํ์ต ๊ตฌ๋ถ ์ง๋ ์ฌ์ ํ์ต(supervised pre-training) vs ๋น์ง๋ ์ฌ์ ํ์ต(unsupervised pre-training) ๋๋น
๐ฌ ์คํ๊ณผ์
๐ ๊ด๋ จ ์ฐ๊ตฌ
1.1. ๊ด๋ จ ์ฐ๊ตฌ
- ๋๋ถ๋ถ์ ์ฒซ๋ฒ์งธ ๋ ์ด์ด๋ง ์ง์ ์๊ฐํํ๋ค. ๋ ๊น์ ์ธต์์๋ ์ด๋ฌํ ์ ๊ทผ์ด ์ ํ์ ์ด๋ค.
- ๊ฐ ๋ด๋ฐ ์ ๋์ ํ์ฑํ๋ฅผ ์ต๋ํํ๊ธฐ ์ํด์, ์ด๋ฏธ์ง ๊ณต๊ฐ์์ ๊ฐ ์ ๋์ optimal stimulus(์ต์ ์๊ทน)์ ์ฐพ์์ผ๋ ์ด๋ ์ด๊ธฐํ์ ๋ฏผ๊ฐํ์ฌ ์ ๋์ invariances(๋ถ๋ณ์ฑ)์ ๋ํ ์ ๋ณด๋ ์ ๊ณตํ์ง ๋ชปํ๋ค. โ ์ด๋ฌํ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด Hessian์ ์์น์ ์ผ๋ก ๊ณ์ฐํ์ฌ ์ผ๋ถ ํต์ฐฐ์ ์ ๊ณตํ์ผ๋ ๊น์ด์ง์๋ก ํต์ฐฐ์ ์ ๊ณตํ์ง ์๋๋ค(์ด์ฐจ ๊ทผ์ฌ์ ๋จ์ )
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋น๋ชจ์์ ๊ด์ ์ ๋ถ๋ณ์ฑ ์๊ฐํ๋ฅผ ์ ๊ณต, ์ด๋ฏธ์ง๋ฅผ ์๋ผ๋ด๋๊ฒ ์๋๋ผ top-down projection์ ํตํด ํน์ ํผ์ณ๋งต์ ์๊ทนํ๋ ํจ์น ๋ด๋ถ์ ๋๋ฌ๋ธ๋ค
ํค์ธ ํ๋ ฌ(Hessian Matrix)
- ์ด๋ค ํจ์ f(x)์ **Hessian ํ๋ ฌ(Hessian matrix)**์ **์ด์ฐจ ๋ํจ์(์ด๊ณ ๋ฏธ๋ถ)**๋ฅผ ๋ชจ์๋์ ์ ๋ฐฉํ๋ ฌ์ ๋๋ค.
- Hessian์ ํจ์์ **๊ณก๋ฅ (curvature)**์ ๋ํ๋ด๋ฉฐ, ํจ์๊ฐ ํน์ ์ง์ ์์ ๋ณผ๋ก(convex)ํ์ง, ์ค๋ชฉ(concave)ํ์ง, ๋๋ ์์ฅ์ (saddle point)์ธ์ง๋ฅผ ํ๋ณํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ต์ ํ(Optimization): 2์ฐจ ์ต์ ํ ๊ธฐ๋ฒ(Newtonโs method ๋ฑ)์ Hessian์ ์ด์ฉํด ๋ ๋น ๋ฅด๊ฒ ์๋ ดํฉ๋๋ค.
- ๋ฏผ๊ฐ๋ ๋ถ์(Sensitivity Analysis): ํน์ ์ ๋ ฅ ๋ณํ๊ฐ ์ถ๋ ฅ์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง, ์ฆ ๋ชจ๋ธ์ **๊ตญ์์ ๋ถ๋ณ์ฑ(local invariance)**์ ๋ถ์ํ ๋ Hessian์ ์ฌ์ฉํฉ๋๋ค.
- ๋ด๋ฐ์ ์ถ๋ ฅ์ด ์ ๋ ฅ ๋ณํ์ ๋ฐ๋ผ ์ผ๋ง๋ ๋ฏผ๊ฐํ๊ฒ ๋ฌ๋ผ์ง๋์ง(๊ณก๋ฅ )๋ฅผ ๋ถ์
- ๊ณก๋ฅ ์ด ๋ฎ์ ๋ฐฉํฅ โ ๋ด๋ฐ์ด ๊ทธ ๋ฐฉํฅ์ ์ ๋ ฅ ๋ณํ์๋ ๋ถ๋ณ(invariant)
- ๊ณก๋ฅ ์ด ๋์ ๋ฐฉํฅ โ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ โ ์ค์ํ ํจํด ๋ฐฉํฅ
ํต์ฌ
- ์๊ฐํ ์ฐ๊ตฌ๋ ์ด๊ธฐ์ ์์์ธต์ด๋ ์ด๊ธฐ์ธต์๋ง ๊ตญํ๋์ด ๊น์ ์ธต์ ํด์ ๋ถ๊ฐ๋ฅ
- ์ต์ ์๊ทน ํ์ (Erhan et al., 2009): ์ด๋ฏธ์ง ๊ณต๊ฐ์์ ๊ฒฝ์ฌํ๊ฐ๋ฒ โ ํ์ฑํ ๊ทน๋ํ โ ๋จ์ : ์ด๊ธฐํ ๋ฏผ๊ฐ, ๋ถ๋ณ์ฑ ์ ๋ณด ์์
- Hessian ๊ธฐ๋ฐ ๋ถ๋ณ์ฑ ๋ถ์ (Le et al., 2010): Hessian ๊ทผ์ฌ๋ก ๋ถ๋ณ์ฑ ํ์ โ ๋จ์ : ๊ณ ์ฐจ์ ์ธต์ ๋ณต์กํ ๋ถ๋ณ์ฑ์ ๋จ์ ์ด์ฐจ์์ผ๋ก ์ค๋ช ๋ถ๊ฐ
- ํจ์น ๊ธฐ๋ฐ ์๊ฐํ (Donahue et al., 2013): ๋ฐ์ดํฐ์ ์์ ๊ฐํ ํ์ฑํ๋ฅผ ์ผ์ผํค๋ ํจ์น ์๋ณ โ ๋จ์ : ๋จ์ crop, feature map ๋ด๋ถ ๊ตฌ์กฐ๋ ์ค๋ช ํ์ง ๋ชปํจ
โ 5์ค ์์ฝ
- ๊ณผ๊ฑฐ ์๊ฐํ ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ฒซ ๋ฒ์งธ ์ธต์ ์ง์ค
- Erhan et al. (2009): ๊ฒฝ์ฌํ๊ฐ๋ฒ์ผ๋ก ์ต์ ์๊ทน ํ์, ๋ถ๋ณ์ฑ ์ค๋ช ๋ถ์กฑ
- Le et al. (2010): Hessian ๊ทผ์ฌ๋ก ๋ถ๋ณ์ฑ ๋ถ์, ๊ณ ์ธต์์๋ ๋ถ์ ํ
- Donahue et al. (2013): ๋ฐ์ดํฐ์ ํจ์น ๊ธฐ๋ฐ ์๊ฐํ, ๊ตฌ์กฐ์ ํด์ ์ ํ
- ๋ณธ ๋ ผ๋ฌธ: Deconvnet์ ํตํด ๋น๋ชจ์์ , ๊ตฌ์กฐ์ ์๊ฐํ ์ ๊ณต โ ๊ณ ์ธต feature ํด์ ๊ฐ๋ฅ
๐ ์ ๋ฆฌ
์ฐ๊ตฌ ๋ฐฉ๋ฒ ํ๊ณ Erhan et al. (2009) ์ด๋ฏธ์ง ๊ณต๊ฐ ๊ฒฝ์ฌํ๊ฐ โ ์ต์ ์๊ทน ์ด๊ธฐํ ๋ฏผ๊ฐ, ๋ถ๋ณ์ฑ ์ค๋ช ๋ถ๊ฐ Le et al. (2010) Hessian ๊ทผ์ฌ โ ๋ถ๋ณ์ฑ ๋ถ์ ๊ณ ์ฐจ์ ์ธต์ ๋ณต์ก์ฑ ๋ฐ์ ๋ชปํจ Donahue et al. (2013) ํจ์น ์๋ณ โ ํ์ฑํ ํด์ ๋จ์ crop, ๊ตฌ์กฐ ์ค๋ช ํ๊ณ ๋ณธ ๋ ผ๋ฌธ Deconvnet ๊ธฐ๋ฐ top-down projection ๊ณ ์ธต feature ๊ตฌ์กฐ์ ํด์ ๊ฐ๋ฅ
๐ 2. Approach
2. Approach
- ์ง๋ํ์ต
- Layer๊ตฌ์กฐ : Conv โ ReLU โ (์ต์ ) Max Pooling : Local์ ๋ํด โ (์ต์ ) Local Contrast Normalization : feature map ์ ๋ฐ์ ์ ๊ทํ
- ๋คํธ์ํฌ๊ฐ ๊น์ด์ง๋ฉด ์์์ fc layer๋ก ๊ตฌ์ฑ, ๋ง์ง๋ง์ softmax clf.
- ์ํคํ ์ณ
- ์์คํจ์ : Cross-entropy
- Optimizer : SGD(mini-batch)
โ 5์ค ์์ฝ
- ConvNet์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๊ณ์ธต์ ๋ณํ์ ํตํด ํด๋์ค ํ๋ฅ ๋ก ๋งคํ
- ๊ณ์ธต์ ํฉ์ฑ๊ณฑ, ReLU, ํ๋ง, ์ ๊ทํ๋ก ๊ตฌ์ฑ
- ์์ ๊ณ์ธต์ fully-connected + softmax ๋ถ๋ฅ๊ธฐ
- ๊ต์ฐจ ์ํธ๋กํผ ์์ค๊ณผ backpropagation์ผ๋ก ํ์ต
- ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(SGD)์ผ๋ก ํ๋ผ๋ฏธํฐ ์ต์ ํ
๐ ์ ๋ฆฌ
์์ ์ค๋ช ์ ๋ ฅ ์ปฌ๋ฌ 2D ์ด๋ฏธ์ง (xi) ์ถ๋ ฅ ํด๋์ค ํ๋ฅ ๋ฒกํฐ (ลทi) ๊ณ์ธต ๊ตฌ์ฑ ํฉ์ฑ๊ณฑ + ReLU + (ํ๋ง) + (์ ๊ทํ) ์์ ๊ตฌ์กฐ Fully-connected layers ์ต์ข ๋ถ๋ฅ๊ธฐ Softmax ์์ค ํจ์ Cross-entropy ํ์ต ์๊ณ ๋ฆฌ์ฆ Backpropagation + SGD 2.1 Visualization with a Deconvnet
- Deconvolutional Network : Conv์ ๋์ผํ ๊ตฌ์ฑ์ด์ง๋ง ํฝ์ โ ํน์ง ํฌ์๊ณผ ๋ฐ๋๋ก ํน์ง โ ํฝ์ ํฌ์์ํ๋ค.
- ๊ธฐ์กด์๋ ๋น์ง๋ํ์ต์ฉ์ผ๋ก ์ ์๋์์ง๋ง, ์ฌ๊ธฐ์๋ ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ probeํ๋ ์ฉ๋๋ก ์ฌ์ฉ๋๋ค.
- ๋ถ์๊ณผ์
- convnet์ deconvnet์ ์ฐ๊ฒฐํ๋ค.
- ์ด๋ฏธ์ง๋ฅผ convnet์ ๋ฃ์ ํ feature์ ๊ณ์ฐํ๊ณ , ํน์ ํ์ฑ์ ์ ํํ๊ณ ๋๋จธ์ง๋ ๋ชจ๋ 0์ผ๋ก ๋ง๋ ๋ค.
- ์ด feature์ deconvnet์ ๋ฃ์ด์ ๋ณต์ํ๋ค.
- unpool
- rectify
- filter ๊ณผ์ ์ ๊ฑฐ์ณ ๋ฐ๋ก ์๋ ๊ณ์ธต์ activity๋ฅผ ๋ณต์
- ํต์ฌ์ฐ์ฐ
- Unpooling : max pooling์ ๋น๊ฐ์ญ์ ์ธ๋ฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด pooling์ ๊ฐ ์์ญ์ ์ต๋๊ฐ์ ์์น๋ฅผ switch๋ณ์๋ก ๊ธฐ๋กํ๊ณ , ๊ทธ ๊ฐ์ ๋ฐํ์ผ๋ก ๋ณต์ ๊ฒฐ๊ณผ๋ฅผ ์ ํํ ์์น์ ๋ฐฐ์น
- Rectification : ConvNet์ฒ๋ผ ReLU๋ฅผ ์ฌ์ฉํ์ฌ ๋ณต์(๋ณต์๋ feature๊ฐ ์์)
- Filtering : ConvNet์ ํ์ต๋ ํํฐ๋ฅผ ์ ์น ๋ฒ์ ์ ์ฌ์ฉํ๋ค.(์์ง, ์ํ๋ฐฉํฅ)
- ํ๊ฐ์ ํ์ฑ์ผ๋ก๋ถํฐ ์ป๋ ๊ฒฐ๊ณผ๋ ์ด๋ฏธ์ง์ ์ด๋ค ๊ตฌ์กฐ์ ์ผ๋ถ๋ถ๊ณผ ์ ์ฌํ๋ค. ๋ชจ๋ธ์ ํ๋ณ์ ์ผ๋ก ํ์ต๋๋ฏ๋ก, ์ ๋ ฅ์ด๋ฏธ์ง์์ ์ด๋ค๋ถ๋ถ์ด ์ค์ํ๋์ง๋ฅผ ๋๋ฌ๋ธ๋ค. ๋ค๋ง ์์ฑ๋ชจ๋ธ์ ์ํ์ด ์๋๋ผ, ๋จ์ํ ์ญํฌ์๋๋ค๋ ์ ์ด๋ค. โ ์์ฑ๋ชจ๋ธ์ด ์๋๋ผ ์ญํฌ์์ด๋ค. โ ์ฆ ๋ชจ๋ธ์ด ์ ๋ ฅ๊ตฌ์กฐ์ ์ด๋ค๋ถ๋ถ์ ๊ฐ์ง๊ณ ํ๋จํ๋์ง ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
- ๋ถ์ ๊ตฌ์กฐ
โ 5์ค ์์ฝ
- Deconvnet์ ์ด์ฉํด ์ค๊ฐ์ธต feature map์ ์ ๋ ฅ ํฝ์ ๊ณต๊ฐ์ผ๋ก ๋ณต์
- ๊ณผ์ : (Unpool โ ReLU โ Filter) ๋ฐ๋ณต
- pooling switch๋ก ์๋ ์๊ทน ์์น ๋ณต์
- ๊ฒฐ๊ณผ: ํน์ activation์ด ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ด๋ค ๋ถ๋ถ์ ์ํด ์ ๋ฐ๋์๋์ง ํ์ธ ๊ฐ๋ฅ
- ์ด๋ ์์ฑ์ด ์๋ ํ๋ณ ๊ธฐ๋ฐ projection โ ConvNet์ ํ๋ณ ๊ทผ๊ฑฐ๋ฅผ ์ง๊ด์ ์ผ๋ก ์๊ฐํ
๐ ์ ๋ฆฌ
๋จ๊ณ ConvNet (์ ๋ฐฉํฅ) Deconvnet (์ญ๋ฐฉํฅ) Pooling Max pooling Unpooling (switch ์ฌ์ฉ) ReLU ReLU ReLU Filtering Learned filter Transposed filter (flip) ๊ฒฐ๊ณผ Feature map ์ ๋ ฅ ๊ณต๊ฐ ๋ณต์
๐ 3. Training Detail
3. ํ์ต ์ธ๋ถ ์ฌํญ
- AlexNet์ GPU๋ถ์ฐ ํ์ต์ ํ๊ธฐ๋๋ฌธ์ 3, 4, 5์ธต์ **sparse connections(ํฌ์ ์ฐ๊ฒฐ - ์ฐ๋ฆฌ๊ฐ ๊ธฐ์กด์ ์๋ sparse๊ฐ ์๋๋ผ, GPU๋ก ์ธํ ๋ชจ๋ธ ์ํคํ ์ณ ๋ถ์ฐ์ ์๋ฏธ)**์ ์ฌ์ฉํ์ง๋ง, ๋ณธ ๋ชจ๋ธ์์๋ dense connections๋ก ๋์ฒด
- ๋ํ 1์ธต๊ณผ 2์ธต์ ์ธ๋ถ ์์ ์ด ์ด๋ฃจ์ด์ง(์๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก)
- AlexNet๊ณผ ๋์ผํ๊ฒ ์ฆ๊ฐ
- 1์ธต ํํฐ๋ฅผ ์๊ฐํ ํ๊ฒฐ๊ณผ, ์ผ๋ถ ํํฐ๊ฐ ์ง๋์น๊ฒ ์ง๋ฐฐ์ ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด **RMS๊ฐ์ด 10^-1์ ์ด๊ณผํ๋ ํํฐ๋ ๊ฐ์ ๋ก renormalization(์ฌ์ ๊ทํ, 0.1๋ก ๋ง๋ฆ, ๊ท ํ ์ ์ง)**ํ๋ค. ์ด๋ [-128, 128]์ธ 1์ธต์์ ์ค์ํ๋ค.
โ 5์ค ์์ฝ
- ImageNet 2012์์ ํ์ต (130๋ง ์ฅ, 1000 ํด๋์ค)
- ์ ์ฒ๋ฆฌ: ๋ฆฌ์ฌ์ด์ฆยทํฌ๋กญยทํ๊ท ์ ๊ฑฐยท๋ฐ์ดํฐ ์ฆ๊ฐ
- ํ์ต: SGD, mini-batch=128, learning rate=0.01 ์์, momentum=0.9, Dropout=0.5
- ํํฐ ์ฌ์ ๊ทํ๋ก ํน์ ํํฐ ์ง๋ฐฐ ๋ฐฉ์ง
- 70 epoch, GPU 1์ฅ, ์ฝ 12์ผ ์์
๐ ์ ๋ฆฌ
ํญ๋ชฉ ์ค์ ๋ฐ์ดํฐ ImageNet 2012 (1.3M, 1000 ํด๋์ค) ์ ์ฒ๋ฆฌ ๋ฆฌ์ฌ์ด์ฆ 256, ์ค์ ํฌ๋กญ, ํ๊ท ์ ๊ฑฐ, 224x224 ์๋ธ ํฌ๋กญ 10๊ฐ, flip ์ต์ ํ SGD, batch=128, lr=0.01, momentum=0.9 ์ ๊ทํ Dropout(0.5), filter RMS clipping(0.1) ๊ตฌ์กฐ ์ฐจ์ด AlexNet sparse โ dense ์ฐ๊ฒฐ ํ์ต ์๊ฐ 70 epoch, GTX580 GPU, 12์ผ
๐ 4. Convnet Visualization
4. ์๊ฐํ
- ๊ฐ ์ธต๋ณ ํน์ง : ๊ทธ ๋ ์ด์ด์์์ ๋ณต์์ด ์๋๋ผ, ์ญ์ผ๋ก ์ ๋ถ๋ค ๊ฑฐ์น ํ ๋ณต์, ๋ฐ๋ผ์ ๊น์ด์ง์๋ก ํด์๋๊ฐ ๋์์ง๋ค. e.g. 2์ธต์ ๊ฒฝ์ฐ 2 โ 1, 5์ธต์ ๊ฒฝ์ฐ 5 โ 4 โ โฆ โ 1 ์ฆ ํ์๊ณ์ธต(์ด๊ธฐ์ธต)๊ณผ ์์๊ณ์ธต(ํ๋ฐ์ธต)์ ๋น๊ต
- 2์ธต(layer 2): ๋ชจ์๋ฆฌ(corner), ์์/์ฃ์ง ๊ฒฐํฉ ๊ตฌ์กฐ์ ๋ฐ์
- 3์ธต(layer 3): ํ ์ค์ฒ(texture)์ ๊ฐ์ ๋ณต์กํ ๋ถ๋ณ์ฑ ํจํด ํฌ์ฐฉ
- 4์ธต(layer 4): ํด๋์ค ํน์ด์ (class-specific) ํจํด (์: ๊ฐ ์ผ๊ตด, ์ ๋ค๋ฆฌ)
- 5์ธต(layer 5): ํฌ์ฆ ๋ณํ๊ฐ ํฐ ์ ์ฒด ๊ฐ์ฒด (์: ํค๋ณด๋, ๊ฐ ์ ์ฒด ๋ชจ์ต)
- ์ ๋ ฅ ๋ณํ(input deformation)์ ๋ํ ๋ถ๋ณ์ฑ(invariance)์ ํ์ธ โ ์์ ๋ณํ๋ ํ์์ธต์์ ํฐ ํจ๊ณผ๋ฅผ ์ฃผ์ง๋ง ์์์ธต์๋ quasi-linear(์์ ์ )์ธ ๋ฐ์์ ๋ณด์ฌ์ค
- ๊ณ์ธต์ ์ฑ๊ฒฉ(hierarchical nature)
- ํ์ ๊ณ์ธต์ ์์์ epochs๋ง์ ์๋ ด, ์์๋ ์ค๋๊ฑธ๋ฆผ
- ์ฆ ConvNet์ ๊น๊ฒ ํ์ต๋ ์๋ก ์ถ์์ ์ธ ํน์ง์ ํ์ต
โ 5์ค ์์ฝ
- Deconvnet์ผ๋ก ๊ฐ ์ธต์ feature map์ ํฝ์ ๊ณต๊ฐ์ผ๋ก ๋ณต์
- ํ์์ธต: ์ ์์ค ํน์ง(์ฃ์ง, ์ฝ๋), ์ค๊ฐ์ธต: ํ ์ค์ฒ, ์์์ธต: ๊ฐ์ฒด/๋ถ์
- ํ๋ จ ์ด๊ธฐ์ ํ์์ธต์ ๋น ๋ฅด๊ฒ ์๋ ด, ์์์ธต์ ๋ฆ๊ฒ ๋ฐ๋ฌ
- ์ ๋ ฅ ๋ณํ์ ๋ํด ์์์ธต์ ๋ ์์ ์ โ ๋ถ๋ณ์ฑ ํ๋ณด
- ConvNet์ ๊ณ์ธต์ ์ผ๋ก ์๋ฏธ ์๋ ํํ์ ํ์ตํจ์ ์ค์ฆ
๐ ์ ๋ฆฌ
์ธต (Layer) ์ฃผ์ ํน์ง ์๊ฐํ ๊ฒฐ๊ณผ Layer 2 ์ฝ๋, ์ฃ์ง+์ ๊ฒฐํฉ ๊ธฐ๋ณธ ๊ธฐํํ์ ๊ตฌ์กฐ ๊ฐ์ง Layer 3 ํ ์ค์ฒ, ๋ฐ๋ณต ํจํด ๋ฉ์(mesh), ํ ์คํธ ์ธ์ Layer 4 ํด๋์ค ํน์ด์ ๋ถ์ ๊ฐ ์ผ๊ตด, ์ ๋ค๋ฆฌ ๋ฑ Layer 5 ์ ์ฒด ๊ฐ์ฒด ๊ฐ, ํค๋ณด๋ ๋ฑ ๋ค์ํ ํฌ์ฆ 4.1. Architecture Selection
- AlexNet์ ๋ฌธ์ ์
- 1์ธต : ๋งค์ฐ ๊ณ ์ฃผํ(high frequency)์ ์ ์ฃผํ(low frequency) ์ ๋ณด๊ฐ ํผํฉ๋์ด ์์ผ๋ฉฐ, ์ค๊ฐ ์ฃผํ์(mid frequency) ์์ญ์ ์ปค๋ฒ๊ฐ ๋ถ์กฑ
- 2์ธต : 1์ธต ํฉ์ฑ๊ณฑ์์ stride=4๋ฅผ ์ฌ์ฉํ ํ์ **aliasing artifact(์ํ๋ง ์๊ณก)**์ด ๋ฐ์
- ZFNet ์์ ์ฌํญ
- 1์ธต ํํฐ ํฌ๊ธฐ๋ฅผ 11x11์์ 7x7๋ก ์ค์ด๊ณ ,
- ํฉ์ฑ๊ณฑ stride๋ฅผ 4์์ 2๋ก ์ถ์ํ์๋ค.
โ 5์ค ์์ฝ
- ์๊ฐํ๋ฅผ ํตํด AlexNet์ 1ยท2์ธต์์ ๋ฌธ์ ์ ๋ฐ๊ฒฌ
- 1์ธต: ์ค๊ฐ ์ฃผํ์ ๋ถ์กฑ, 2์ธต: stride=4๋ก ์ธํ aliasing
- ๊ฐ์ : 11x11 ํํฐ โ 7x7, stride=4 โ 2
- ๊ฒฐ๊ณผ: ์ ๋ณด ๋ณด์กด โ, aliasing โ
- ์ฑ๋ฅ ๋ํ ๊ฐ์ ๋จ (Section 5.1)
๐ ์ ๋ฆฌ
๋ฌธ์ (AlexNet) ํด๊ฒฐ์ฑ (Zeiler & Fergus) ๊ฒฐ๊ณผ 1์ธต: ๊ณ ยท์ ์ฃผํ ์์ฃผ, mid-frequency ๋ถ์กฑ ํํฐ ํฌ๊ธฐ 11x11 โ 7x7 ๋ ๊ท ํ ์กํ ํํฐ 2์ธต: stride=4 โ aliasing ๋ฐ์ stride=4 โ 2 aliasing ์ ๊ฑฐ, ์ ๋ณด ๋ณด์กด โ ์ฑ๋ฅ ๊ฐ์ ์ AlexNet ๊ฐ์ ํ ๋ ๋ฎ์ ์ค๋ฅ์จ 4.2 Occlusion Sensitivity
- ๊ฐ์ฒด์ ์์น๋ฅผ ์ธ์ํ๋์ง, ์ฃผ๋ณ ๋งฅ๋ฝ๋ง ์ฌ์ฉํ๋์ง๋ฅผ ํ์ธํด๋ณด๋ ์คํ์ผ๋ก, ๊ฒฐ๋ก ์ ์ผ๋ก ๊ฐ์ฒด๋ฅผ ์ง์ฐ๋ ๊ฒฝ์ฐ ์ฌ๋ฐ๋ฅธ ํด๋์ค ํ๋ฅ ์ด ํฌ๊ฒ ๋จ์ด์ง๋ค.
- ์ฆ ๋ชจ๋ธ์ ๊ฐ์ฒด ์์ฒด์ ์ง์คํ์ฌ, ๊ฐ์ฒด ํ์ง์ ๊ฐ๋ฅ์ฑ์ ๋ํด ์์ฌ
โ 5์ค ์์ฝ
- Occlusion์ผ๋ก ๋ชจ๋ธ์ด ๋ฐฐ๊ฒฝ์ด ์๋ ๊ฐ์ฒด ์์น์ ์์กดํจ์ ํ์ธ
- ๊ฐ์ฒด ๋ถ์๊ฐ ๊ฐ๋ ค์ง๋ฉด ์ฌ๋ฐ๋ฅธ ํด๋์ค ํ๋ฅ ๊ธ๋ฝ
- top conv layer์ feature map ํ์ฑ๋๋ ํจ๊ป ๊ธ๋ฝ
- Deconvnet ์๊ฐํ๊ฐ ์ง์ง ์๊ทน ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ฆ
- ConvNet์ ์ฅ๋ฉด context๋ณด๋ค ๊ฐ์ฒด local structure์ ๋ฏผ๊ฐ
๐ ์ ๋ฆฌ
์ง๋ฌธ ๋ฐฉ๋ฒ ๊ฒฐ๊ณผ ์๋ฏธ ๊ฐ์ฒด ์์น๋ฅผ ๋ณด๋๊ฐ, ๋ฐฐ๊ฒฝ context๋ฅผ ๋ณด๋๊ฐ? ์ด๋ฏธ์ง ์์ญ์ ์์ฐจ์ ์ผ๋ก ๊ฐ๋ฆผ ๊ฐ์ฒด ๋ถ๋ถ์ด ๊ฐ๋ ค์ง๋ฉด ํ๋ฅ ๊ธ๋ฝ ConvNet์ ๊ฐ์ฒด local structure์ ์ง์ค ์๊ฐํ ์ ๋ขฐ์ฑ ๊ฒ์ฆ top conv layer feature map ํ์ฑ๋ ๊ด์ฐฐ occluder๊ฐ ํด๋น ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ฆฌ๋ฉด ํ์ฑ๋ ๊ธ๋ฝ Deconvnet ์๊ฐํ ๊ฒฐ๊ณผ๊ฐ ์ค์ feature์ ์ผ์น 4.3. Correspondence Analysis
- ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ **ํน์ ๊ฐ์ฒด ๋ถ์๊ฐ์ ๋์(์ผ๊ตด ์, ์ฝ์ ๋)**์ ๋ช ์์ ์ผ๋ก ์ค์ ํ๊ฒ ๋๋๋ฐ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ์๋ ์ด๋ฌํ ๋ฉ์ปค๋์ฆ์ด ์๋ฌต์ ์ผ๋ก ๋์ํ๋ค๋ ์ ์ด๋ค.
โ ๋ฐฉ๋ฒ
- ๊ฐ ์ผ๊ตด ์ด๋ฏธ์ง 5์ฅ ์ ํ
- ๋์ผํ ์์น(์: ์ผ์ชฝ ๋)๋ฅผ ๊ฐ๋ ค์ ์๋ณธ๊ณผ feature ์ฐจ์ด ฮตli ๊ณ์ฐ
- ์ด๋ฏธ์ง ์(i, j) ๊ฐ์ ์ฐจ์ด ๋ฒกํฐ ์ผ๊ด์ฑ์ ํด๋ฐ ๊ฑฐ๋ฆฌ๋ก ์ธก์ (ฮl)
- ํน์ ๋ถ์ vs ๋ฌด์์ ๋ถ์ ๋น๊ต
โ ๊ฒฐ๊ณผ
- Layer 5: ๋ยท์ฝ ๊ฐ์ ์๋ฏธ ์๋ ๋ถ์์์ ฮ ๊ฐ์ด ๋ฎ์ โ ๋์์ฑ ํ๋ณด
- Layer 7: breed ํ๋ณ์ ์ง์คํ๋ฏ๋ก ฮ ๊ฐ์ด ๋ฌด์์ ๋ถ์์ ์ ์ฌ โ ๋ถ์ ๋์ ์ ๋ณด ์ฝํ
โ ์๋ฏธ
- ConvNet์ ๋ช ์์ ์ผ๋ก correspondence๋ฅผ ์ ์ํ์ง ์์๋, ์ค๊ฐ์ธต์์ ๊ฐ์ฒด ๋ถ์ ๊ฐ ์๋ฌต์ ๋์์ ํ์ต
- ๊ทธ๋ฌ๋ ๊น์ ์ธต์ผ๋ก ๊ฐ์๋ก ์ด ์ ๋ณด๋ ์ฌ๋ผ์ง๊ณ , ํด๋์ค ๊ตฌ๋ถ์ ๋ ํนํ๋จ
ํด๋ฐ ๊ฑฐ๋ฆฌ ๋ ๋ฒกํฐ๊ฐ ์์๋, ์๋ก ๋ค๋ฅธ ์์น์ ์์ ๊ฐ์๋ฅผ ์๋ ๊ฑฐ๋ฆฌ ์ธก๋ ๊ฐ์ด ์์์๋ก ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง์์๋ ๊ฐ์ ๋ถ์๊ฐ ๊ณตํต๋ ์ญํ ์ ํ๊ณ ์์์ ์๋ฏธ
โ 5์ค ์์ฝ
- ConvNet์ด ์๋ฌต์ ์ผ๋ก ๊ฐ์ฒด ๋ถ์ ๋์์ ํ์ตํ๋์ง ์คํ
- ๋์ผ ๋ถ์๋ฅผ ๊ฐ๋ ค feature ๋ณํ๋์ ๋น๊ต
- Layer 5: ๋ยท์ฝ์์ ๋ณํ๊ฐ ์ผ๊ด์ โ ๋์์ฑ ์กด์ฌ
- Layer 7: breed ํ๋ณ๋ก ์น์ค โ ๋์์ฑ ๊ฐ์
- ConvNet์ ์ค๊ฐ์ธต์์ correspondence๋ฅผ ํ์ฑํ์ง๋ง, ๊น์ ์ธต์์๋ ํ๋ณ์ ํน์ง์ ์ง์ค
๐ ์ ๋ฆฌ
์ธต (Layer) ๋ถ์ ฮ ๊ฐ ๊ฒฐ๊ณผ ์๋ฏธ Layer 5 ๋ยท์ฝ vs ๋ฌด์์ ๋ยท์ฝ ฮ ๋ ๋ฎ์ ๋ถ์ ๊ฐ ๋์์ฑ ํ๋ณด Layer 7 ๋ยท์ฝ vs ๋ฌด์์ ์ ์ฌ breed ๊ตฌ๋ถ์ ์ง์ค, correspondence ์ฝํ
๐ 5. Experiments
5.1. ImageNet 2012 โ 5์ค ์์ฝ
- ImageNet 2012: ํ์ต 130๋ง / ๊ฒ์ฆ 5๋ง / ํ ์คํธ 10๋ง, 1000 ํด๋์ค
- AlexNet ๊ตฌ์กฐ ์ฌํ โ ๋ณด๊ณ ๋ ์ฑ๋ฅ๊ณผ ๋์ผ
- stride 4โ2, filter 11ร11โ7ร7 โ ์ฑ๋ฅ ํฅ์
- ๋จ์ผ ๋ชจ๋ธ: Top-5 error 1.7% ๊ฐ์
- ์์๋ธ: 14.8% error โ ๋น์ ์ต๊ณ ์ฑ๋ฅ, ๋น-ConvNet์ ์ ๋ฐ ์์ค
๐ ์ ๋ฆฌํ (5.1 ImageNet 2012)
๋ชจ๋ธ Top-5 Error (%) ๋น๊ณ AlexNet (2012) 16.4 Krizhevsky et al. Zeiler & Fergus (๋จ์ผ) ์ฝ 14.7โ15.0 stride=2, filter=7ร7 ์ ์ฉ Zeiler & Fergus (์์๋ธ) 14.8 2012 ํ์ต์ ๊ธฐ์ค ์ต๊ณ ์ฑ๋ฅ ๋น-ConvNet (Gunji et al.) 26.2 ๊ฐ์ ๋ํ ์์ entry 5.2 Feature Generalization โ 5์ค ์์ฝ
- ImageNet ์ฌ์ ํ์ต feature๋ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์์๋ ๊ฐ๋ ฅ
- Caltech-101: 86.5%, ๊ธฐ์กด ์ต๊ณ ์น๋ณด๋ค +2.2%
- Caltech-256: 74.2%, ๊ธฐ์กด ์ต๊ณ ์น๋ณด๋ค +19%
- PASCAL: ํ๊ท 79.0%, ์ต๊ณ ์น 82.2%์ ๊ทผ์ , ์ผ๋ถ ํด๋์ค๋ ์ฐ์
- ConvNet์ ๋ฒ์ฉ์ ์ ์ด ํ์ต ๋๊ตฌ์์ ์ ์ฆ
๐ ์ ๋ฆฌํ (5.2 Feature Generalization)
๋ฐ์ดํฐ์ ์ฌ์ ํ์ต ๋ชจ๋ธ ์ฑ๋ฅ ๊ธฐ์กด ์ต๊ณ ์น Scratch ํ์ต ์๋ฏธ Caltech-101 86.5% 81.4% 46.5% ์๊ท๋ชจ์์๋ SOTA Caltech-256 74.2% (60 imgs/class) 55.2% 38.8% ๋๊ท๋ชจ/์๊ท๋ชจ ๋ชจ๋ ์๋ PASCAL VOC 2012 79.0% (mean) 82.2% - ๋ค์ค ๊ฐ์ฒด ์ฅ๋ฉด, ์ผ๋ถ ํด๋์ค๋ ๋ ์ฐ์ 5.3 Feature Analysis
- ๊น์ด์ง์๋ก ํ๋ณ ์ฑ๋ฅ ์ฆ๊ฐ
โ 5์ค ์์ฝ
- ConvNet์ feature ํ๋ณ๋ ฅ์ ๊น์์๋ก ํฅ์
- Layer 1: ์ ์ฑ๋ฅ (์ฃ์งยท์ ๊ธฐ๋ฐ)
- Layer 5: ํฐ ํฅ์ (์ค๊ฐ ํน์ง์ด ๋งค์ฐ ๊ฐ๋ ฅ)
- Layer 7: Caltech-256์์๋ ์ต๊ณ , Caltech-101์์๋ plateau
- ConvNet์ ๊ณ์ธต์ ์ผ๋ก ์ ์ ๊ฐ๋ ฅํ ํน์ง ํํ์ ํ์ต
๐ ์ ๋ฆฌ
๋ฐ์ดํฐ์ Layer 1 Layer 3 Layer 5 Layer 7 ์๋ฏธ Caltech-101 44.8% 72.3% 86.2% 85.5% ์ค๊ฐ~์์์ธต์์ ํฐ ํฅ์, ์ต์์์ธต์ plateau Caltech-256 24.6% 46.0% 65.6% 71.7% ์ธต์ด ๊น์์๋ก ๊ณ์ ํฅ์, ์ต์์์ธต์ด ์ต๊ฐ








