ํด๋ฆฝ๋ณด๋“œ์— ๋ณต์‚ฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค
Post

(VGG) Very Deep Convolutional Networks for Large-Scale Image Recognition

(VGG) Very Deep Convolutional Networks for Large-Scale Image Recognition

๐Ÿ”— ์ถœ์ฒ˜

https://arxiv.org/abs/1409.1556


๐Ÿงฉ ๋ฐฉ๋ฒ•๋ก 

by โ€ฆ

๐Ÿ’ก ์ฐธ๊ณ : (๋ถ€๊ฐ€ ์„ค๋ช… ์ž‘์„ฑ)


๐Ÿ“Œ ๋…ผ๋ฌธ

๐Ÿ’ก ์š”์•ฝ

by Gemini

1. ๊นŠ์ด(Depth)์˜ ์ค‘์š”์„ฑ ๊ฐ•์กฐ

์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์žฅ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์—ฌ๋Š” ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ(ConvNet)์˜ ๊นŠ์ด๊ฐ€ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์„ ๊ณ ์ •ํ•œ ์ฑ„, ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๋ฅผ 11๊ฐœ์—์„œ 19๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ๋ ˆ์ด์–ด๊นŒ์ง€ ๋Š˜๋ ธ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜๊ฐ€ ๊ฐ์†Œํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ๊นŠ์ด๊ฐ€ ์ด๋ฏธ์ง€ ์ธ์‹ ์„ฑ๋Šฅ์— ๋งค์šฐ ์ค‘์š”ํ•œ ์š”์†Œ์ž„์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

2. 3ร—3์˜ ์ž‘์€ ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ ์‚ฌ์šฉ

VGG Net์˜ ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„ ์›์น™์€ ์ „์ฒด ๋„คํŠธ์›Œํฌ์— ๊ฑธ์ณ ๋งค์šฐ ์ž‘์€

3ร—3 ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ์‚ฌ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์žฅ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

  • ํšจ๊ณผ์ ์ธ ์ˆ˜์šฉ ์˜์—ญ(Receptive Field) ํ™•์žฅ: 3ร—3 ํ•„ํ„ฐ ๋‘ ๊ฐœ๋ฅผ ์Œ“์œผ๋ฉด 5ร—5 ํ•„ํ„ฐ ํ•˜๋‚˜์˜ ์ˆ˜์šฉ ์˜์—ญ๊ณผ ๋™์ผํ•˜๊ณ , ์„ธ ๊ฐœ๋ฅผ ์Œ“์œผ๋ฉด 7ร—7 ํ•„ํ„ฐ ํ•˜๋‚˜์˜ ์ˆ˜์šฉ ์˜์—ญ๊ณผ ๋™์ผํ•œ ํšจ๊ณผ๋ฅผ ๋ƒ…๋‹ˆ๋‹ค.

  • ๋น„์„ ํ˜•์„ฑ ์ฆ๊ฐ€: ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ์Œ“์œผ๋ฉด์„œ ๋” ๋งŽ์€ ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜์–ด ๊ฒฐ์ • ํ•จ์ˆ˜(decision function)๋ฅผ ๋” ํŒ๋ณ„๋ ฅ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  • ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ ๊ฐ์†Œ: ํ•˜๋‚˜์˜ ํฐ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ž‘์€ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ค„์—ฌ์ค๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 3๊ฐœ์˜

    3ร—3 ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋Š” 1๊ฐœ์˜ 7ร—7 ๋ ˆ์ด์–ด๋ณด๋‹ค ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ 81% ๋” ์ ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ์ •๊ทœํ™”(regularisation) ํšจ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.

3. ์ผ๊ด€๋œ ๋„คํŠธ์›Œํฌ ๊ตฌ์„ฑ

VGG Net์€ ๊นŠ์ด๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š” ๋งค์šฐ ์ผ๊ด€๋˜๊ณ  ๊ฐ„๋‹จํ•œ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

  • ์ž…๋ ฅ: ํ›ˆ๋ จ ์ค‘์—๋Š” ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ 224ร—224 RGB ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์œ ์ผํ•œ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์€ ํ›ˆ๋ จ ์„ธํŠธ์˜ ํ‰๊ท  RGB ๊ฐ’์„ ๊ฐ ํ”ฝ์…€์—์„œ ๋นผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์ปจ๋ณผ๋ฃจ์…˜ ๋ฐ ํ’€๋ง: 3ร—3 ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด ์Šคํƒ ๋’ค์— 2ร—2 ๋งฅ์Šค ํ’€๋ง(max-pooling) ๋ ˆ์ด์–ด๊ฐ€ ์ด์–ด์ง€๋Š” ๊ตฌ์กฐ๊ฐ€ ๋ฐ˜๋ณต๋ฉ๋‹ˆ๋‹ค. ๋งฅ์Šค ํ’€๋ง์„ ๊ฑฐ์น  ๋•Œ๋งˆ๋‹ค ์ฑ„๋„ ์ˆ˜๋Š” 2๋ฐฐ์”ฉ ์ฆ๊ฐ€ํ•˜์—ฌ 512๊ฐœ๊นŒ์ง€ ๋Š˜์–ด๋‚ฉ๋‹ˆ๋‹ค.

  • ์™„์ „ ์—ฐ๊ฒฐ ๋ ˆ์ด์–ด(Fully-Connected Layers): ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด ์Šคํƒ ๋‹ค์Œ์—๋Š” 3๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ ๋ ˆ์ด์–ด๊ฐ€ ์œ„์น˜ํ•ฉ๋‹ˆ๋‹ค. ์ฒ˜์Œ ๋‘ ๋ ˆ์ด์–ด๋Š” ๊ฐ๊ฐ 4096๊ฐœ์˜ ์ฑ„๋„์„ ๊ฐ€์ง€๋ฉฐ, ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด๋Š” 1000๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•œ 1000๊ฐœ์˜ ์ฑ„๋„์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

4. ํ›ˆ๋ จ ๋ฐ ํ‰๊ฐ€ ๊ธฐ๋ฒ•

  • ํ›ˆ๋ จ(Training): ํ›ˆ๋ จ์€ ๋ชจ๋ฉ˜ํ…€(momentum)์„ ์‚ฌ์šฉํ•œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(mini-batch gradient descent)์œผ๋กœ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ •๊ทœํ™”๋ฅผ ์œ„ํ•ด ๊ฐ€์ค‘์น˜ ๊ฐ์†Œ(weight decay, L2 ํŽ˜๋„ํ‹ฐ)์™€ ์ฒ˜์Œ ๋‘ ๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ ๋ ˆ์ด์–ด์— ๋“œ๋กญ์•„์›ƒ(dropout)์ด ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”: ๊นŠ์€ ๋„คํŠธ์›Œํฌ์˜ ๋ถˆ์•ˆ์ •ํ•œ ๊ธฐ์šธ๊ธฐ(gradient) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ƒ๋Œ€์ ์œผ๋กœ ์–•์€ ๋„คํŠธ์›Œํฌ(A)๋ฅผ ๋จผ์ € ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”๋กœ ํ›ˆ๋ จ์‹œํ‚จ ํ›„, ๋” ๊นŠ์€ ์•„ํ‚คํ…์ฒ˜์˜ ์ดˆ๊ธฐ ๋ ˆ์ด์–ด๋“ค์„ ์ด ์–•์€ ๋„คํŠธ์›Œํฌ์˜ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์Šค์ผ€์ผ ์ง€ํ„ฐ๋ง(Scale Jittering): ํ›ˆ๋ จ ์‹œ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ๊ฐ€์žฅ ์ž‘์€ ๋ณ€์˜ ๊ธธ์ด๋ฅผ ํŠน์ • ๋ฒ”์œ„([Sminโ€‹,Smaxโ€‹]) ๋‚ด์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๋ฆฌ์Šค์ผ€์ผ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ์ธ์‹ํ•˜๋„๋ก ํ›ˆ๋ จํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(augmentation) ๊ธฐ๋ฒ•์œผ๋กœ, ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ(Testing): ํ…Œ์ŠคํŠธ ์‹œ์—๋Š” ์™„์ „ ์—ฐ๊ฒฐ ๋ ˆ์ด์–ด๋ฅผ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ(fully-convolutional), ์ด๋ฏธ์ง€ ์ „์ฒด์— ๋Œ€ํ•ด ์กฐ๋ฐ€ํ•˜๊ฒŒ(densely) ๋„คํŠธ์›Œํฌ๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ํฌ๋กญ(crop)์„ ์ž˜๋ผ๋‚ด์–ด ๊ฐ๊ฐ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์—ฌ๋Ÿฌ ํ…Œ์ŠคํŠธ ์Šค์ผ€์ผ(Q)์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•˜๊ณ  ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ท  ๋‚ด์–ด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๐Ÿ’ก ์ฐธ๊ณ : (์š”์•ฝ ๋ณด์ถฉ ์„ค๋ช…)


๐Ÿ“š ์ •๋ฆฌ

๐Ÿ“Œ ์ œ๋ชฉ

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Authors: Karen Simonyan, Andrew Zisserman

๋ฒˆ์—ญ

๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ์ธ์‹์„ ์œ„ํ•œ ๋งค์šฐ ๊นŠ์€ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(Very Deep Convolutional Networks for Large-Scale Image Recognition)


๐ŸŒŸ ์ดˆ๋ก

๋ฒˆ์—ญ

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(Convolutional Network)์˜ ๊นŠ์ด๊ฐ€ ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ์ธ์‹ ์ •ํ™•๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์กฐ์‚ฌํ•œ๋‹ค. ์šฐ๋ฆฌ์˜ ์ฃผ์š” ๊ธฐ์—ฌ๋Š” ๋งค์šฐ ์ž‘์€ (3ร—3) ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ๋„คํŠธ์›Œํฌ ๊นŠ์ด๋ฅผ 16โ€“19๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ์ธต์œผ๋กœ ํ™•์žฅํ•จ์œผ๋กœ์จ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ ๊ตฌ์„ฑ๋ณด๋‹ค ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์ฒ ์ €ํžˆ ํ‰๊ฐ€ํ•œ ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์€ ์šฐ๋ฆฌ๊ฐ€ ImageNet Challenge 2014์— ์ œ์ถœํ•œ ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜์—ˆ์œผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ๋ถ„๋ฅ˜(classification)์™€ ์œ„์น˜ ์ถ”์ •(localisation) ํŠธ๋ž™์—์„œ ๊ฐ๊ฐ 2์œ„์™€ 1์œ„๋ฅผ ์ฐจ์ง€ํ–ˆ๋‹ค. ๋˜ํ•œ, ์šฐ๋ฆฌ์˜ ํ‘œํ˜„์€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ์ž˜ ์ผ๋ฐ˜ํ™”๋˜์–ด ์ตœ์ฒจ๋‹จ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•จ์„ ๋ณด์˜€๋‹ค. ์šฐ๋ฆฌ๋Š” ์‹ฌ์ธต ์‹œ๊ฐ ํ‘œํ˜„ ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋‘ ๊ฐ€์ง€ ConvNet ๋ชจ๋ธ์„ ๊ณต๊ฒŒํ–ˆ๋‹ค.

๋‚ด์šฉ

  • CNN์˜ ๊นŠ์ด๊ฐ€ ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ์ธ์‹ ์ •ํ™•๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ์กฐ์‚ฌ -> 16-19์ธต์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ์„ฑ๋Šฅ ํ–ฅ์ƒ
  • ์ž‘์€ ์ปค๋„(3x3)

    ์ฃผ์š” ํฌ์ธํŠธ

    | ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€” | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€“ | | ๋ฐ์ดํ„ฐ์…‹ | ImageNet (ILSVRC 2014) | | ๋ชจ๋ธ ๊ตฌ์กฐ | 3ร—3 ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ ๊ธฐ๋ฐ˜, ๊นŠ์ด 16~19์ธต | | ํ•™์Šต ๋ฐฉ๋ฒ• | ๊ธฐ์กด ConvNet ํ›ˆ๋ จ ์ ˆ์ฐจ ๊ธฐ๋ฐ˜ | | ํ‰๊ฐ€ ์ง€ํ‘œ | Classification/Localization Error (Top-1, Top-5) | | ๊ฒฐ๊ณผ ํ•ด์„ | ๊นŠ์ด ์ฆ๊ฐ€๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง, ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์šฐ์ˆ˜ |


๐Ÿ“Œ ์„œ๋ก  & ๊ฒฐ๋ก  & ๊ณ ์ฐฐ

๋ฒˆ์—ญ

์„œ๋ก 

ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(ConvNets)์€ ์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค ์ธ์‹์—์„œ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ๋Š”๋ฐ(Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014; Simonyan & Zisserman, 2014), ์ด๋Š” ImageNet(Deng et al., 2009)๊ณผ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ์ด๋ฏธ์ง€ ์ €์žฅ์†Œ์™€ GPU ๋˜๋Š” ๋Œ€๊ทœ๋ชจ ๋ถ„์‚ฐ ํด๋Ÿฌ์Šคํ„ฐ(Dean et al., 2012)์™€ ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ ์ปดํ“จํŒ… ์‹œ์Šคํ…œ ๋•๋ถ„์— ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค. ํŠนํžˆ, ImageNet Large-Scale Visual Recognition Challenge (ILSVRC, Russakovsky et al., 2014)๋Š” ๊ณ ์ฐจ์› ์–•์€ ํŠน์ง• ์ธ์ฝ”๋”ฉ(Perronnin et al., 2010, ILSVRC-2011 ์šฐ์Šน)๋ถ€ํ„ฐ ์‹ฌ์ธต ConvNets(Krizhevsky et al., 2012, ILSVRC-2012 ์šฐ์Šน)๊นŒ์ง€ ์—ฌ๋Ÿฌ ์„ธ๋Œ€์˜ ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ์˜ ์‹œํ—˜๋Œ€๋กœ์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ด์™”๋‹ค.

ConvNets๊ฐ€ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ์ ์ฐจ ๋ณดํŽธํ™”๋˜๋ฉด์„œ, Krizhevsky et al. (2012)์˜ ์›๋ž˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐœ์„ ํ•˜์—ฌ ๋” ๋‚˜์€ ์ •ํ™•๋„๋ฅผ ์–ป์œผ๋ ค๋Š” ์‹œ๋„๊ฐ€ ์ด๋ฃจ์–ด์กŒ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ILSVRC-2013์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ ์ œ์ถœ์ž‘๋“ค์€ ์ฒซ ๋ฒˆ์งธ ํ•ฉ์„ฑ๊ณฑ ์ธต์˜ ์ˆ˜์šฉ์˜์—ญ ํฌ๊ธฐ(receptive window size)๋ฅผ ๋” ์ž‘๊ฒŒ ํ•˜๊ณ  stride๋ฅผ ์ค„์˜€๋‹ค(Zeiler & Fergus, 2013; Sermanet et al., 2014). ๋˜ ๋‹ค๋ฅธ ๊ฐœ์„  ๋ฐฉํ–ฅ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ์ด๋ฏธ์ง€ ์ „์ฒด์™€ ๋‹ค์ค‘ ์Šค์ผ€์ผ์—์„œ ์กฐ๋ฐ€ํ•˜๊ฒŒ ํ•™์Šต ๋ฐ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์ด์—ˆ๋‹ค(Sermanet et al., 2014; Howard, 2014). ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ConvNet ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์˜ ๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ์ธก๋ฉด์ธ ๊นŠ์ด(depth)์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์•„ํ‚คํ…์ฒ˜์˜ ๋‹ค๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์€ ๊ณ ์ •ํ•˜๊ณ , ๋ชจ๋“  ์ธต์—์„œ ๋งค์šฐ ์ž‘์€ (3ร—3) ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ์ ์ฐจ ํ•ฉ์„ฑ๊ณฑ ์ธต์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋„คํŠธ์›Œํฌ ๊นŠ์ด๋ฅผ ๋Š˜๋ฆฐ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ์šฐ๋ฆฌ๋Š” ILSVRC ๋ถ„๋ฅ˜ ๋ฐ ์œ„์น˜ ์ถ”์ • ์ž‘์—…์—์„œ ์ตœ์ฒจ๋‹จ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ์ธ์‹ ๋ฐ์ดํ„ฐ์…‹์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ƒ๋‹นํžˆ ๋” ์ •ํ™•ํ•œ ConvNet ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์‹ฌ์ง€์–ด ๋น„๊ต์  ๋‹จ์ˆœํ•œ ํŒŒ์ดํ”„๋ผ์ธ(์˜ˆ: ์‹ฌ์ธต ํŠน์ง•์„ ์„ ํ˜• SVM์œผ๋กœ ๋ถ„๋ฅ˜, ๋ฏธ์„ธ์กฐ์ • ์—†์ด)์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์—ฐ๊ตฌ ์ด‰์ง„์„ ์œ„ํ•ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ๋‹ค.

๊ฒฐ๋ก 

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ์ตœ๋Œ€ 19๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ์ธต์„ ๊ฐ€์ง„ ๋งค์šฐ ๊นŠ์€ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง์„ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ํ‘œํ˜„์˜ ๊นŠ์ด๊ฐ€ ๋ถ„๋ฅ˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ์œ ๋ฆฌํ•˜๋ฉฐ, ๊ธฐ์กด ConvNet ์•„ํ‚คํ…์ฒ˜(LeCun et al., 1989; Krizhevsky et al., 2012)์˜ ๊ตฌ์กฐ๋ฅผ ํฌ๊ฒŒ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ImageNet ์ฑŒ๋ฆฐ์ง€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€๋‹ค. ๋˜ํ•œ ๋ถ€๋ก์—์„œ๋Š”, ์ œ์•ˆํ•œ ๋ชจ๋ธ์ด ์–•์€ ์‹œ๊ฐ ํ‘œํ˜„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋” ๋ณต์žกํ•œ ์ธ์‹ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ๋น„๊ตํ•ด๋„ ๋™์ผํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž‘์—…๊ณผ ๋ฐ์ดํ„ฐ์…‹์— ์ž˜ ์ผ๋ฐ˜ํ™”๋จ์„ ๋ณด์˜€๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” ์‹œ๊ฐ ํ‘œํ˜„์—์„œ ๊นŠ์ด์˜ ์ค‘์š”์„ฑ์„ ๋‹ค์‹œ ํ•œ ๋ฒˆ ํ™•์ธ์‹œ์ผœ์ค€๋‹ค.

๋‚ด์šฉ

  • AlexNet์˜ ๊ฐœ์„ ๋ฐฉํ–ฅ
    • ์ฒซ ๋ฒˆ์งธ conv์˜ win.์„ ๋” ์ž‘๊ฒŒํ•˜๊ณ , stride๋ฅผ ์ค„์ž„
    • ์ด๋ฏธ์ง€ ์ „์ฒด์™€ ๋‹ค์ค‘ ์Šค์ผ€์ผ์—์„œ ์กฐ๋ฐ€ํ•˜๊ฒŒ ํ•™์Šต ๋ฐ ํ…Œ์ŠคํŠธ
  • ๋ณธ ๋…ผ๋ฌธ์€ ๊นŠ์ด์— ์ดˆ์ ์„ ๋งž์ถค, ๋”ฐ๋ผ์„œ ๋‹ค๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์€ ๊ณ ์ •ํ•˜๊ณ , ๋ชจ๋“  ์ธต์—์„œ ๋งค์šฐ ์ž‘์€ ์ปค๋„์„ ์‚ฌ์šฉํ•˜๊ณ , layer์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๋ฅผ ๋Š˜๋ฆฐ๋‹ค.
  • ํ‘œํ˜„์˜ ๊นŠ์ด์˜ ์ฆ๊ฐ€๊ฐ€ ๊ฒฐ๋ก ์ ์œผ๋กœ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋จ
    • ๋ถ„๋ฅ˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ์œ ๋ฆฌ
  • AlexNet์˜ ๊นŠ์ด๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์„ฑ๋Šฅ์ด ๋†’์•„์ง

    ํฌ์ธํŠธ

    | ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€” | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€“ | | ๋ฐ์ดํ„ฐ์…‹ | ImageNet (ILSVRC 2012โ€“2014) | | ๋ชจ๋ธ ๊ตฌ์กฐ | 3ร—3 ํ•„ํ„ฐ ๊ธฐ๋ฐ˜, 16โ€“19์ธต ConvNet | | ํ•™์Šต ๋ฐฉ๋ฒ• | ๊ธฐ์กด ConvNet ํ•™์Šต ํ”„๋กœํ† ์ฝœ ์œ ์ง€, ๊นŠ์ด๋งŒ ํ™•์žฅ | | ํ‰๊ฐ€ ์ง€ํ‘œ | Top-1, Top-5 error (classification), localisation error | | ๊ฒฐ๊ณผ ํ•ด์„ | ๊นŠ์ด๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํ•ต์‹ฌ, ๋ณต์žกํ•œ ๊ตฌ์กฐ ์—†์ด๋„ ์„ฑ๋Šฅ ๊ฐœ์„  ๊ฐ€๋Šฅ |


๐Ÿ”ฌ ์‹คํ—˜๊ณผ์ •

๐Ÿ“š 2. CONVNET CONFIGURATIONS

๋ฒˆ์—ญ

ConvNet ๊นŠ์ด๋ฅผ ์ฆ๊ฐ€์‹œํ‚ด์œผ๋กœ์จ ๋ฐœ์ƒํ•˜๋Š” ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ๊ณต์ •ํ•˜๊ฒŒ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ์˜ ConvNet ์ธต ๊ตฌ์„ฑ์€ ๋ชจ๋‘ ๋™์ผํ•œ ์›์น™์„ ๋”ฐ๋ฅธ๋‹ค(Ciresan et al., 2011; Krizhevsky et al., 2012์—์„œ ์˜๊ฐ์„ ๋ฐ›์Œ). ๋ณธ ์žฅ์—์„œ๋Š” ๋จผ์ € ConvNet ๊ตฌ์„ฑ์˜ ์ผ๋ฐ˜์ ์ธ ๋ ˆ์ด์•„์›ƒ์„ ์„ค๋ช…(2.1์ ˆ)ํ•˜๊ณ , ์ด์–ด์„œ ํ‰๊ฐ€์— ์‚ฌ์šฉ๋œ ๊ตฌ์ฒด์ ์ธ ๊ตฌ์„ฑ๋“ค์„ ์ž์„ธํžˆ ์„ค๋ช…(2.2์ ˆ)ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์šฐ๋ฆฌ์˜ ์„ค๊ณ„ ์„ ํƒ์„ ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋น„๊ตํ•˜์—ฌ ๋…ผ์˜ํ•œ๋‹ค(2.3์ ˆ).

2.1. Architecture

ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ConvNet์˜ ์ž…๋ ฅ์€ ๊ณ ์ • ํฌ๊ธฐ 224 ร— 224 RGB ์ด๋ฏธ์ง€์ด๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋Š” ์ „์ฒ˜๋ฆฌ๋Š” ํ›ˆ๋ จ ์„ธํŠธ์—์„œ ๊ณ„์‚ฐ๋œ ํ‰๊ท  RGB ๊ฐ’์„ ๊ฐ ํ”ฝ์…€์—์„œ ๋นผ๋Š” ๊ฒƒ๋ฟ์ด๋‹ค. ์ด๋ฏธ์ง€๋Š” ํ•ฉ์„ฑ๊ณฑ(convolutional, conv.) ์ธต์˜ ์Šคํƒ์„ ๊ฑฐ์น˜๋ฉฐ, ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ๋งค์šฐ ์ž‘์€ ์ˆ˜์šฉ์˜์—ญ(receptive field)์„ ๊ฐ€์ง„ 3 ร— 3 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค(์ด๋Š” ์ขŒ/์šฐ, ์ƒ/ํ•˜, ์ค‘์•™์˜ ๊ฐœ๋…์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์†Œ ํฌ๊ธฐ์ด๋‹ค). ํ•˜๋‚˜์˜ ์„ค์ •์—์„œ๋Š” 1 ร— 1 ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๋„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” ์ž…๋ ฅ ์ฑ„๋„์— ๋Œ€ํ•œ ์„ ํ˜• ๋ณ€ํ™˜(๋น„์„ ํ˜•์„ฑ์ด ๋’ค๋”ฐ๋ฆ„)์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ํ•ฉ์„ฑ๊ณฑ stride๋Š” 1 ํ”ฝ์…€๋กœ ๊ณ ์ •๋˜๋ฉฐ, ํ•ฉ์„ฑ๊ณฑ ์ธต ์ž…๋ ฅ์˜ ๊ณต๊ฐ„ ํŒจ๋”ฉ์€ ํ•ฉ์„ฑ๊ณฑ ํ›„์—๋„ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๊ฐ€ ๋ณด์กด๋˜๋„๋ก ์„ค์ •๋œ๋‹ค. ์ฆ‰, 3ร—3 ํ•ฉ์„ฑ๊ณฑ ์ธต์˜ ๊ฒฝ์šฐ ํŒจ๋”ฉ์€ 1 ํ”ฝ์…€์ด๋‹ค. ๊ณต๊ฐ„ ํ’€๋ง์€ ๋‹ค์„ฏ ๊ฐœ์˜ ์ตœ๋Œ€ ํ’€๋ง(max-pooling) ์ธต์—์„œ ์ˆ˜ํ–‰๋˜๋ฉฐ, ์ด๋Š” ์ผ๋ถ€ ํ•ฉ์„ฑ๊ณฑ ์ธต ๋’ค์— ๋ฐฐ์น˜๋œ๋‹ค(๋ชจ๋“  ํ•ฉ์„ฑ๊ณฑ ์ธต ๋’ค์— ๋ฐฐ์น˜๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค). ์ตœ๋Œ€ ํ’€๋ง์€ 2ร—2 ํ”ฝ์…€ ์œˆ๋„์šฐ์— ๋Œ€ํ•ด stride 2๋กœ ์ˆ˜ํ–‰๋œ๋‹ค.

ํ•ฉ์„ฑ๊ณฑ ์ธต ์Šคํƒ(์•„ํ‚คํ…์ฒ˜๋งˆ๋‹ค ๊นŠ์ด๊ฐ€ ๋‹ค๋ฅด๋‹ค)์€ ์„ธ ๊ฐœ์˜ ์™„์ „์—ฐ๊ฒฐ(Fully-Connected, FC) ์ธต์— ์˜ํ•ด ์ด์–ด์ง„๋‹ค. ์ฒซ ๋ฒˆ์งธ์™€ ๋‘ ๋ฒˆ์งธ FC ์ธต์€ ๊ฐ๊ฐ 4096 ์ฑ„๋„์„ ๊ฐ€์ง€๊ณ , ์„ธ ๋ฒˆ์งธ FC ์ธต์€ 1000-ํด๋ž˜์Šค ILSVRC ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ 1000 ์ฑ„๋„(๊ฐ ํด๋ž˜์Šค๋‹น ํ•˜๋‚˜์”ฉ)์„ ๊ฐ€์ง„๋‹ค. ๋งˆ์ง€๋ง‰ ์ธต์€ soft-max ์ธต์ด๋‹ค. ์™„์ „์—ฐ๊ฒฐ ์ธต์˜ ๊ตฌ์„ฑ์€ ๋ชจ๋“  ๋„คํŠธ์›Œํฌ์—์„œ ๋™์ผํ•˜๋‹ค.

๋ชจ๋“  ์€๋‹‰์ธต์€ ์ •๋ฅ˜(Rectification) ๋น„์„ ํ˜•์„ฑ(ReLU (Krizhevsky et al., 2012))์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ฃผ๋ชฉํ•  ์ ์€ (ํ•˜๋‚˜์˜ ์˜ˆ์™ธ๋ฅผ ์ œ์™ธํ•˜๊ณ ) ์šฐ๋ฆฌ์˜ ๋„คํŠธ์›Œํฌ๋“ค์€ Local Response Normalisation (LRN) ์ •๊ทœํ™”๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค(Krizhevsky et al., 2012). ์ด๋Š” 4์žฅ์—์„œ ๋ณด์—ฌ์ฃผ๋“ฏ์ด ILSVRC ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋„์›€์ด ๋˜์ง€ ์•Š์œผ๋ฉฐ, ์˜คํžˆ๋ ค ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„์™€ ๊ณ„์‚ฐ ์‹œ๊ฐ„์„ ์ฆ๊ฐ€์‹œํ‚ค๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ํ•„์š”ํ•œ ๊ฒฝ์šฐ LRN ์ธต์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” (Krizhevsky et al., 2012)์™€ ๋™์ผํ•˜๋‹ค.

2.2. Configurations

์ด ๋…ผ๋ฌธ์—์„œ ํ‰๊ฐ€๋œ ConvNet ๊ตฌ์„ฑ์€ ํ‘œ 1์— ๊ฐ ์—ด(column)๋ณ„๋กœ ์š”์•ฝ๋˜์–ด ์žˆ๋‹ค. ์ดํ›„ ๋„คํŠธ์›Œํฌ๋“ค์€ ์ด๋ฆ„(Aโ€“E)์œผ๋กœ ์ง€์นญ๋œ๋‹ค. ๋ชจ๋“  ๊ตฌ์„ฑ์€ 2.1์ ˆ์—์„œ ์„ค๋ช…ํ•œ ์ผ๋ฐ˜์ ์ธ ์„ค๊ณ„๋ฅผ ๋”ฐ๋ฅด๋ฉฐ, ์ฐจ์ด์ ์€ ๊นŠ์ด์— ์žˆ๋‹ค: ๋„คํŠธ์›Œํฌ A๋Š” 11๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ์ธต(ํ•ฉ์„ฑ๊ณฑ 8๊ฐœ์™€ FC 3๊ฐœ), ๋„คํŠธ์›Œํฌ E๋Š” 19๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ์ธต(ํ•ฉ์„ฑ๊ณฑ 16๊ฐœ์™€ FC 3๊ฐœ)์„ ๊ฐ€์ง„๋‹ค. ํ•ฉ์„ฑ๊ณฑ ์ธต์˜ ๋„ˆ๋น„(์ฑ„๋„ ์ˆ˜)๋Š” ๋น„๊ต์  ์ž‘์œผ๋ฉฐ, ์ฒซ ๋ฒˆ์งธ ์ธต์—์„œ 64๋กœ ์‹œ์ž‘ํ•ด ๊ฐ ์ตœ๋Œ€ ํ’€๋ง ์ธต ์ดํ›„ ๋‘ ๋ฐฐ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ 512์— ์ด๋ฅธ๋‹ค ํ‘œ 2์—๋Š” ๊ฐ ๊ตฌ์„ฑ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋ณด๊ณ ๋˜์–ด ์žˆ๋‹ค. ๊นŠ์ด๊ฐ€ ์ƒ๋‹นํžˆ ๊นŠ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์šฐ๋ฆฌ์˜ ๋„คํŠธ์›Œํฌ์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋” ์–•์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ํฐ ํ•ฉ์„ฑ๊ณฑ ์ธต ๋„ˆ๋น„์™€ ์ˆ˜์šฉ์˜์—ญ์„ ์‚ฌ์šฉํ•  ๋•Œ๋ณด๋‹ค ๋งŽ์ง€ ์•Š๋‹ค(์˜ˆ: (Sermanet et al., 2014)์˜ 1์–ต 4400๋งŒ ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ).

2.3. Discussion

์šฐ๋ฆฌ์˜ ConvNet ๊ตฌ์„ฑ์€ ILSVRC-2012 (Krizhevsky et al., 2012)์™€ ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014) ๋Œ€ํšŒ์˜ ์ƒ์œ„ ์ œ์ถœ์ž‘๋“ค๊ณผ๋Š” ์ƒ๋‹นํžˆ ๋‹ค๋ฅด๋‹ค. ๊ทธ๋“ค์€ ์ฒซ ๋ฒˆ์งธ ํ•ฉ์„ฑ๊ณฑ ์ธต์—์„œ ๋น„๊ต์  ํฐ ์ˆ˜์šฉ์˜์—ญ์„ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ(์˜ˆ: Krizhevsky et al., 2012๋Š” 11ร—11 stride 4, Zeiler & Fergus, 2013 ๋ฐ Sermanet et al., 2014๋Š” 7ร—7 stride 2), ์šฐ๋ฆฌ๋Š” ์ „์ฒด ๋„คํŠธ์›Œํฌ์—์„œ ๋งค์šฐ ์ž‘์€ 3ร—3 ์ˆ˜์šฉ์˜์—ญ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ž…๋ ฅ์˜ ๋ชจ๋“  ํ”ฝ์…€์—์„œ stride 1๋กœ ํ•ฉ์„ฑ๊ณฑ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๋‘ ๊ฐœ์˜ 3ร—3 ํ•ฉ์„ฑ๊ณฑ ์ธต์„ ์Œ“์œผ๋ฉด(์ค‘๊ฐ„์— ๊ณต๊ฐ„ ํ’€๋ง ์—†์Œ) ํšจ๊ณผ์ ์ธ ์ˆ˜์šฉ์˜์—ญ์€ 5ร—5๊ฐ€ ๋˜๋ฉฐ, ์„ธ ๊ฐœ๋ฅผ ์Œ“์œผ๋ฉด 7ร—7 ์ˆ˜์šฉ์˜์—ญ์ด ๋œ๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ๋‹จ์ผ 7ร—7 ์ธต ๋Œ€์‹  ์„ธ ๊ฐœ์˜ 3ร—3 ์ธต์„ ์Œ“์Œ์œผ๋กœ์จ ์–ป๋Š” ๊ฒƒ์€ ๋ฌด์—‡์ธ๊ฐ€? ์ฒซ์งธ, ๋น„์„ ํ˜• ์ •๋ฅ˜์ธต์ด ํ•˜๋‚˜๊ฐ€ ์•„๋‹Œ ์„ธ ๊ฐœ๊ฐ€ ํฌํ•จ๋˜์–ด ์˜์‚ฌ๊ฒฐ์ • ํ•จ์ˆ˜๊ฐ€ ๋” ํŒ๋ณ„๋ ฅ์ด ๋†’์•„์ง„๋‹ค. ๋‘˜์งธ, ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ค„์–ด๋“ ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด ๋ชจ๋‘ C ์ฑ„๋„์ผ ๋•Œ, ์„ธ ์ธต์˜ 3ร—3 ํ•ฉ์„ฑ๊ณฑ ์Šคํƒ์€ 3(3^2C^2) = 27C^2๊ฐœ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€์ง€๋งŒ, ๋‹จ์ผ 7ร—7 ์ธต์€ 7^2C^2 = 49C^2๊ฐœ๋ฅผ ํ•„์š”๋กœ ํ•œ๋‹ค. ์ฆ‰, 81% ๋” ๋งŽ๋‹ค. ์ด๋Š” 7ร—7 ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ์— ๋Œ€ํ•ด 3ร—3 ํ•„ํ„ฐ๋ฅผ ํ†ตํ•œ ๋ถ„ํ•ด(์ค‘๊ฐ„์— ๋น„์„ ํ˜•์„ฑ ํฌํ•จ)๋ฅผ ๊ฐ•์ œํ•˜๋Š” ์ผ์ข…์˜ ์ •๊ทœํ™”๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

1ร—1 ํ•ฉ์„ฑ๊ณฑ ์ธต์˜ ๋„์ž…(๊ตฌ์„ฑ C, ํ‘œ 1)์€ ํ•ฉ์„ฑ๊ณฑ ์ธต์˜ ์ˆ˜์šฉ์˜์—ญ์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๊ณ  ์˜์‚ฌ๊ฒฐ์ • ํ•จ์ˆ˜์˜ ๋น„์„ ํ˜•์„ฑ์„ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฝ์šฐ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์ฑ„๋„ ์ˆ˜๊ฐ€ ๊ฐ™์œผ๋ฏ€๋กœ 1ร—1 ํ•ฉ์„ฑ๊ณฑ์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋™์ผ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ์˜ ์„ ํ˜• ํˆฌ์˜์ด์ง€๋งŒ, ์ •๋ฅ˜ ํ•จ์ˆ˜์— ์˜ํ•ด ๋น„์„ ํ˜•์„ฑ์ด ์ถ”๊ฐ€๋œ๋‹ค. 1ร—1 ํ•ฉ์„ฑ๊ณฑ ์ธต์€ ์ตœ๊ทผ Lin et al. (2014)์˜ โ€œNetwork in Networkโ€ ์•„ํ‚คํ…์ฒ˜์—์„œ๋„ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

์ž‘์€ ํฌ๊ธฐ์˜ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๋Š” ์ด์ „์— Ciresan et al. (2011)์— ์˜ํ•ด ์‚ฌ์šฉ๋˜์—ˆ์ง€๋งŒ, ๊ทธ๋“ค์˜ ๋„คํŠธ์›Œํฌ๋Š” ์šฐ๋ฆฌ ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์–•์•˜์œผ๋ฉฐ ๋Œ€๊ทœ๋ชจ ILSVRC ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•˜์ง€ ์•Š์•˜๋‹ค. Goodfellow et al. (2014)๋Š” 11์ธต ๋”ฅ ConvNet์„ ๊ฑฐ๋ฆฌ ๋ฒˆํ˜ธ ์ธ์‹(street number recognition) ๊ณผ์ œ์— ์ ์šฉํ•˜์—ฌ ๊นŠ์ด๊ฐ€ ์ฆ๊ฐ€ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€๋‹ค. GoogLeNet (Szegedy et al., 2014)์€ ILSVRC-2014 ๋ถ„๋ฅ˜ ๊ณผ์ œ์˜ ์ƒ์œ„ ์ œ์ถœ์ž‘์œผ๋กœ, ๋…๋ฆฝ์ ์œผ๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ์ง€๋งŒ ๋งค์šฐ ๊นŠ์€ ConvNet(22์ธต)๊ณผ ์ž‘์€ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ(3ร—3๋ฟ ์•„๋‹ˆ๋ผ 1ร—1, 5ร—5 ์‚ฌ์šฉ)์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค๋Š” ์ ์—์„œ ์œ ์‚ฌํ•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ GoogLeNet์˜ ๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€๋Š” ์šฐ๋ฆฌ ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋ณต์žกํ•˜๋ฉฐ, ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์ดˆ๊ธฐ ์ธต์—์„œ feature map์˜ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ๋” ๊ณต๊ฒฉ์ ์œผ๋กœ ์ค„์ธ๋‹ค. 4.5์ ˆ์—์„œ ๋ณด์ด๋“ฏ์ด, ๋‹จ์ผ ๋„คํŠธ์›Œํฌ ๋ถ„๋ฅ˜ ์ •ํ™•๋„ ์ธก๋ฉด์—์„œ ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ์€ Szegedy et al. (2014)์˜ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•œ๋‹ค.


๋‚ด์šฉ

  • ์‹คํ—˜ ๋ชฉํ‘œ : ํ‚พ์ด๋ฅผ ์ฆ๊ฐ€์‹œํ‚ด์œผ๋กœ์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ฐœ์„  ํšจ๊ณผ ์ธก์ •

    2.1. Architecture

  • input : 224x224 RGB
    • ์ „์ฒ˜๋ฆฌ : ํ›ˆ๋ จ ์„ธํŠธ์—์„œ ๊ณ„์‚ฐ๋œ ํ‰๊ท  RGB๊ฐ’์„ ๊ฐ ํ”ฝ์…€์—์„œ ๋บŒ(AlexNet๊ณผ ๋™์ผ)
  • Conv : 2d, 3x3 ํ•„ํ„ฐ, stride = 1, padding = 1
    • 1x1ํ•„ํ„ฐ๋„ ์‚ฌ์šฉ : ์„ ํ˜• ๋ณ€ํ™˜
  • max-polling : 5ํšŒ(conv๋’ค์— ํ•ญ์ƒ ๋ฐฐ์น˜ x), 2x2ํ•„ํ„ฐ, stride = 2
  • FC : 3๊ฐœ
  • ReLU๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉ
    • ํ•˜๋‚˜๋ฅผ ์ œ์™ธํ•˜๊ณ  LRN(AlexNet์˜ technique) -> ์„ฑ๋Šฅํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•˜์ง€ ์•Š์Œ VGG Architecture

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€” | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€” | | ๋ฐ์ดํ„ฐ์…‹ | ImageNet (ILSVRC) | | ์ž…๋ ฅ ํฌ๊ธฐ | 224ร—224 RGB | | ๋ชจ๋ธ ๊ตฌ์กฐ | 3ร—3 conv (stride=1, padding=1), 1ร—1 conv ์ผ๋ถ€ | | FC ๊ตฌ์กฐ | 4096 โ†’ 4096 โ†’ 1000, ๋งˆ์ง€๋ง‰ soft-max | | ํ™œ์„ฑ ํ•จ์ˆ˜ | ๋ชจ๋“  ์€๋‹‰์ธต์— ReLU | | ์ •๊ทœํ™” | ๋Œ€๋ถ€๋ถ„ LRN ๋ฏธ์‚ฌ์šฉ (๋ฉ”๋ชจ๋ฆฌ, ์†๋„ ๋ฌธ์ œ) |

2.2. Configurations

  • ์ธต ๋„ˆ๋น„๋Š” 64์—์„œ ์‹œ์ž‘ํ•ด ํ’€๋ง ๋•Œ๋งˆ๋‹ค 2๋ฐฐ์”ฉ ์ฆ๊ฐ€ํ•ด 512๊นŒ์ง€ ๋„๋‹ฌํ•œ๋‹ค. A๋Š” 11์ธต, E๋Š” 19์ธต ๊ตฌ์กฐ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์ ธ๋„ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ์–•์ง€๋งŒ ํฐ ํ•„ํ„ฐ๋ฅผ ์“ฐ๋Š” ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ์ ์„ ์ˆ˜ ์žˆ๋‹ค. VGG Configurations

    ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”- | | ๋„คํŠธ์›Œํฌ A | 11์ธต (8 conv + 3 FC) | | ๋„คํŠธ์›Œํฌ E | 19์ธต (16 conv + 3 FC) | | ์ฑ„๋„ ์ˆ˜ | 64์—์„œ ์‹œ์ž‘, ํ’€๋ง๋งˆ๋‹ค 2๋ฐฐ, ์ตœ์ข… 512 | | ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ | Aโ€“E: 133M ~ 144M, ๊ธฐ์กด๋ณด๋‹ค ํšจ์œจ์  | | ๋น„๊ต ๋Œ€์ƒ | OverFeat (Sermanet et al., 2014) 144M |

2.3. Discussion

  • ์ฐจ์ด์  : 3x3์ปค๋„ stride = 1์‚ฌ์šฉ
  • ๋˜ํ•œ ํ•œ๋ฒˆ์— ํฐ ์ปค๋„ 7x7, 5x5๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , 3x3์„ ์Œ“์•„์„œ ์‚ฌ์šฉ
    • ํšจ๊ณผ : 3x3์ปค๋„ 2์žฅ์‚ฌ์šฉ์‹œ 5x5์ปค๋„์„ ์‚ฌ์šฉํ•˜๋Š” ํšจ๊ณผ์™€ ๋™์ผ, 3์žฅ ์‚ฌ์šฉ์‹œ 7x7์ปค๋„์„ ์‚ฌ์šฉํ•˜๋Š” ํšจ๊ณผ์™€ ๋™์ผ
    • ์žฅ์ 
      • ๋น„์„ ํ˜•ํ•จ์ˆ˜๊ฐ€ 3ํšŒ ์‚ฌ์šฉ๋˜์–ด, ํŒ๋ณ„๋ ฅ์ด ๋” ์ข‹์•„์ง„๋‹ค
      • ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด ๋ชจ๋‘ C ์ฑ„๋„์ผ ๋•Œ, ์„ธ ์ธต์˜ 3ร—3 ํ•ฉ์„ฑ๊ณฑ ์Šคํƒ์€ 3(3^2C^2) = 27C^2๊ฐœ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€์ง€๋งŒ, ๋‹จ์ผ 7ร—7 ์ธต์€ 7^2C^2 = 49C^2๊ฐœ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ค„์–ด๋“ ๋‹ค
      • ์ผ์ข…์˜ ์ •๊ทœํ™”๋กœ ์ž‘์šฉ๋œ๋‹ค
  • 1x1์ปค๋„ ์‚ฌ์šฉ : ๋น„์„ ํ˜•์„ฑ ์ฆ๊ฐ€ ํšจ๊ณผ(ํ™œ์„ฑํ™” ํ•จ์ˆ˜์— ์˜ํ•ด)

ํฌ์ธํŠธ

ํ•ญ๋ชฉ๋‚ด์šฉ
๋น„๊ต ๋Œ€์ƒAlexNet(11ร—11), Zeiler(7ร—7), OverFeat ๋“ฑ
VGG ์ ‘๊ทผ์ „ ์ธต์—์„œ 3ร—3 conv ์‚ฌ์šฉ
์žฅ์  1๋น„์„ ํ˜•์„ฑ(์˜ˆ: 3๊ฐœ ReLU vs 1๊ฐœ) ์ฆ๊ฐ€
์žฅ์  2ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ์†Œ (27C^2 vs 49C^2, 81% ์ ˆ์•ฝ)
์žฅ์  3์ •๊ทœํ™” ํšจ๊ณผ (ํฐ ํ•„ํ„ฐ๋ฅผ ์ž‘์€ ํ•„ํ„ฐ๋กœ ๋ถ„ํ•ด)
1ร—1 convreceptive field ์œ ์ง€, ๋น„์„ ํ˜•์„ฑ ์ถ”๊ฐ€
GoogLeNet ๋น„๊ต๋” ๊นŠ์ง€๋งŒ ๋ณต์žก, VGG๋Š” ๋‹จ์ˆœยท์„ฑ๋Šฅ ์šฐ์ˆ˜

๐Ÿ“š 3. Classification Framework

๋ฒˆ์—ญ

2์žฅ์—์„œ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์™€ ๋ณ€ํ˜•์„ ์„ค๋ช…ํ•œ ๋ฐ ์ด์–ด, 3์žฅ์—์„œ๋Š” ํ›ˆ๋ จ(Training)๊ณผ ํ‰๊ฐ€(Testing) ํ”„๋กœํ† ์ฝœ์„ ๋‹ค๋ฃฌ๋‹ค. ํ•™์Šต๋ฅ , ๋ฐฐ์น˜ ํฌ๊ธฐ, ์ •๊ทœํ™”, ์ดˆ๊ธฐํ™”, ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•, ํ…Œ์ŠคํŠธ ์‹œ ๋ฐฉ๋ฒ•๋ก  ๋“ฑ์ด ํฌํ•จ๋œ๋‹ค.

3.1. Training

ConvNet ํ•™์Šต ์ ˆ์ฐจ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ Krizhevsky et al. (2012)์„ ๋”ฐ๋ฅธ๋‹ค(๋‹จ, ์ดํ›„ ์„ค๋ช…ํ•  ๋‹ค์ค‘ ์Šค์ผ€์ผ ํ•™์Šต ์ด๋ฏธ์ง€๋ฅผ ์ด์šฉํ•œ ์ž…๋ ฅ crop ์ƒ˜ํ”Œ๋ง์€ ์ œ์™ธ). ์ฆ‰, ํ•™์Šต์€ ๋ชจ๋ฉ˜ํ…€์„ ์‚ฌ์šฉํ•œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(mini-batch gradient descent, ์—ญ์ „ํŒŒ(LeCun et al., 1989) ๊ธฐ๋ฐ˜)์„ ํ†ตํ•ด ๋‹คํ•ญ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(multinomial logistic regression) ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰๋œ๋‹ค. ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” 256, ๋ชจ๋ฉ˜ํ…€์€ 0.9๋กœ ์„ค์ •๋˜์—ˆ๋‹ค. ํ•™์Šต์€ ๊ฐ€์ค‘์น˜ ๊ฐ์‡ (weight decay, L2 ํŒจ๋„ํ‹ฐ ๊ณ„์ˆ˜ 5ยท10^โˆ’4)์™€ ์ฒซ ๋‘ ๊ฐœ์˜ ์™„์ „์—ฐ๊ฒฐ ์ธต์— ๋Œ€ํ•œ dropout ์ •๊ทœํ™”(dropout ๋น„์œจ 0.5)๋กœ ์ •๊ทœํ™”๋˜์—ˆ๋‹ค. ์ดˆ๊ธฐ ํ•™์Šต๋ฅ ์€ 10^โˆ’2๋กœ ์„ค์ •๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ฆ ์„ธํŠธ ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋˜์ง€ ์•Š์„ ๋•Œ๋งˆ๋‹ค 10๋ฐฐ์”ฉ ๊ฐ์†Œ๋˜์—ˆ๋‹ค. ์ด ์„ธ ๋ฒˆ ๊ฐ์†Œ์‹œ์ผฐ๊ณ , 370K iteration(74 epoch)์—์„œ ํ•™์Šต์„ ์ข…๋ฃŒํ–ˆ๋‹ค. Krizhevsky et al. (2012)์— ๋น„ํ•ด ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜์™€ ๊นŠ์ด๊ฐ€ ๋” ๋งŽ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , (a) ๊นŠ์ด์™€ ์ž‘์€ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๊ฐ€ ๋‚ด์žฌ์  ์ •๊ทœํ™”๋ฅผ ์ œ๊ณตํ–ˆ์œผ๋ฉฐ, (b) ์ผ๋ถ€ ์ธต์„ ์‚ฌ์ „ ์ดˆ๊ธฐํ™”(pre-initialisation)ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์˜คํžˆ๋ ค ๋” ์ ์€ epoch์œผ๋กœ ์ˆ˜๋ ดํ–ˆ๋‹ค๊ณ  ์ถ”์ธกํ•œ๋‹ค.

๋„คํŠธ์›Œํฌ ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”๋Š” ์ค‘์š”ํ•˜๋‹ค. ์ดˆ๊ธฐํ™”๊ฐ€ ์ž˜๋ชป๋˜๋ฉด ๊ธฐ์šธ๊ธฐ ๋ถˆ์•ˆ์ •์„ฑ์œผ๋กœ ํ•™์Šต์ด ๋ฉˆ์ถœ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด, ๋จผ์ € ์–•์•„์„œ ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”๋กœ๋„ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๊ตฌ์„ฑ A(Table 1)๋ฅผ ํ•™์Šตํ–ˆ๋‹ค. ์ดํ›„ ๋” ๊นŠ์€ ์•„ํ‚คํ…์ฒ˜ ํ•™์Šต ์‹œ, ์ฒ˜์Œ ๋„ค ๊ฐœ ํ•ฉ์„ฑ๊ณฑ ์ธต๊ณผ ๋งˆ์ง€๋ง‰ ์„ธ ๊ฐœ FC ์ธต์€ ๋„คํŠธ์›Œํฌ A์˜ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ , ์ค‘๊ฐ„ ์ธต๋“ค์€ ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”ํ–ˆ๋‹ค. ์‚ฌ์ „ ์ดˆ๊ธฐํ™”๋œ ์ธต๋„ ํ•™์Šต ์ค‘์— ๋ณ€ํ•˜๋„๋ก ํ•™์Šต๋ฅ ์„ ๋‚ฎ์ถ”์ง€ ์•Š์•˜๋‹ค. ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”์˜ ๊ฒฝ์šฐ ํ‰๊ท  0, ๋ถ„์‚ฐ 10^โˆ’2์ธ ์ •๊ทœ๋ถ„ํฌ์—์„œ ๊ฐ€์ค‘์น˜๋ฅผ ์ƒ˜ํ”Œ๋งํ–ˆ๊ณ , bias๋Š” 0์œผ๋กœ ์ดˆ๊ธฐํ™”ํ–ˆ๋‹ค. ๋…ผ๋ฌธ ์ œ์ถœ ์ดํ›„ Glorot & Bengio (2010)์˜ ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด ์‚ฌ์ „ ํ•™์Šต ์—†์ด๋„ ์ดˆ๊ธฐํ™”๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ํ™•์ธํ–ˆ๋‹ค.

ConvNet ์ž…๋ ฅ ํฌ๊ธฐ 224ร—224 ์ด๋ฏธ์ง€๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด, ํ›ˆ๋ จ ์ด๋ฏธ์ง€๋ฅผ ๋ฆฌ์Šค์ผ€์ผํ•œ ๋’ค ๋ฌด์ž‘์œ„๋กœ crop์„ ์ž˜๋ผ๋‚ด์–ด ์‚ฌ์šฉํ–ˆ๋‹ค(SGD iteration๋‹น ์ด๋ฏธ์ง€๋‹น 1 crop). ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์œผ๋กœ๋Š” ๋ฌด์ž‘์œ„ ์ขŒ์šฐ ๋ฐ˜์ „(horizontal flipping)๊ณผ ๋ฌด์ž‘์œ„ RGB ์ƒ‰์ƒ ๋ณ€ํ™”(Krizhevsky et al., 2012)๋ฅผ ์ ์šฉํ–ˆ๋‹ค. ํ›ˆ๋ จ ์ด๋ฏธ์ง€ ๋ฆฌ์Šค์ผ€์ผ๋ง์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

ํ›ˆ๋ จ ์ด๋ฏธ์ง€ ํฌ๊ธฐ:

S๋ฅผ ๋ฆฌ์Šค์ผ€์ผ๋œ ํ›ˆ๋ จ ์ด๋ฏธ์ง€์˜ ๊ฐ€์žฅ ์งง์€ ๋ณ€ ๊ธธ์ด๋ผ๊ณ  ํ•  ๋•Œ(์ด๋ฅผ ํ•™์Šต ์Šค์ผ€์ผ์ด๋ผ ๋ถ€๋ฅธ๋‹ค), ConvNet ์ž…๋ ฅ crop ํฌ๊ธฐ๋Š” 224ร—224๋กœ ๊ณ ์ •๋˜์–ด ์žˆ์œผ๋‚˜ S๋Š” 224 ์ด์ƒ ์•„๋ฌด ๊ฐ’์ด๋‚˜ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค. S=224์ด๋ฉด crop์€ ์ด๋ฏธ์ง€์˜ ๊ฐ€์žฅ ์งง์€ ๋ณ€ ์ „์ฒด๋ฅผ ํฌํ•จํ•˜๊ณ , Sโ‰ซ224์ด๋ฉด crop์€ ์ž‘์€ ๊ฐ์ฒด๋‚˜ ๊ฐ์ฒด์˜ ์ผ๋ถ€๋งŒ ํฌํ•จํ•œ๋‹ค.

S๋ฅผ ์„ค์ •ํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ์ ‘๊ทผ์„ ๊ณ ๋ คํ•œ๋‹ค. ์ฒซ์งธ๋Š” S๋ฅผ ๊ณ ์ •ํ•˜๋Š” ๋‹จ์ผ ์Šค์ผ€์ผ ํ•™์Šต(single-scale training)์ด๋‹ค. ์ด ๊ฒฝ์šฐ crop ๋‚ด ์ฝ˜ํ…์ธ ๋Š” ์—ฌ์ „ํžˆ ๋‹ค์ค‘ ์Šค์ผ€์ผ ์ •๋ณด๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” S=256(์„ ํ–‰์—ฐ๊ตฌ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ)๊ณผ S=384 ๋‘ ๊ฐ€์ง€ ๊ณ ์ • ์Šค์ผ€์ผ์—์„œ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. S=256์œผ๋กœ ํ•™์Šตํ•œ ๋’ค, S=384 ๋ชจ๋ธ์€ ์ด๋ฅผ ์‚ฌ์ „ ํ•™์Šต ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ํ•™์Šต๋ฅ ์„ 10^โˆ’3์œผ๋กœ ์ค„์—ฌ ํ•™์Šต ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ–ˆ๋‹ค.

๋‘˜์งธ๋Š” ๋‹ค์ค‘ ์Šค์ผ€์ผ ํ•™์Šต(multi-scale training)์œผ๋กœ, ๊ฐ ํ›ˆ๋ จ ์ด๋ฏธ์ง€๋ฅผ [S_min, S_max] ๋ฒ”์œ„์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง๋œ S๋กœ ๋ฆฌ์Šค์ผ€์ผํ•œ๋‹ค(์—ฌ๊ธฐ์„œ๋Š” S_min=256, S_max=512). ์ด๋Š” ๊ฐ์ฒด ํฌ๊ธฐ๊ฐ€ ๋‹ค์–‘ํ•œ ์ ์„ ๊ณ ๋ คํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•˜๋ฉฐ, ์Šค์ผ€์ผ ์ง€ํ„ฐ๋ง(scale jittering)์— ์˜ํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์œผ๋กœ๋„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์†๋„์ƒ์˜ ์ด์œ ๋กœ, ๋‹ค์ค‘ ์Šค์ผ€์ผ ๋ชจ๋ธ์€ ๋™์ผํ•œ ๊ตฌ์„ฑ์˜ S=384 ๋‹จ์ผ ์Šค์ผ€์ผ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์„ fine-tuningํ•˜์—ฌ ํ•™์Šตํ–ˆ๋‹ค.

3.2. Testing

ํ…Œ์ŠคํŠธ ์‹œ, ํ•™์Šต๋œ ConvNet๊ณผ ์ž…๋ ฅ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ถ„๋ฅ˜๊ฐ€ ์ด๋ฃจ์–ด์ง„๋‹ค. ๋จผ์ € ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์ „ ์ •์˜๋œ ์ตœ์†Œ ๋ณ€ ๊ธธ์ด Q๋กœ ๋“ฑ๋น„์ ์œผ๋กœ ๋ฆฌ์Šค์ผ€์ผํ•œ๋‹ค(Q๋ฅผ ํ…Œ์ŠคํŠธ ์Šค์ผ€์ผ์ด๋ผ ํ•œ๋‹ค). Q๋Š” ๋ฐ˜๋“œ์‹œ ํ•™์Šต ์Šค์ผ€์ผ S์™€ ๊ฐ™์„ ํ•„์š”๋Š” ์—†๋‹ค(4์žฅ์—์„œ ๋ณด์ด๋“ฏ์ด, ๊ฐ S์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ Q๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง„๋‹ค). ๊ทธ ํ›„ ๋„คํŠธ์›Œํฌ๋ฅผ ๋ฆฌ์Šค์ผ€์ผ๋œ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€ ์ „์ฒด์— ๋Œ€ํ•ด ์กฐ๋ฐ€ํ•˜๊ฒŒ(densely) ์ ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” (Sermanet et al., 2014)์™€ ์œ ์‚ฌํ•˜๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š”, ์™„์ „์—ฐ๊ฒฐ ์ธต๋“ค์„ ํ•ฉ์„ฑ๊ณฑ ์ธต์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค(์ฒซ ๋ฒˆ์งธ FC ์ธต์€ 7ร—7 conv ์ธต์œผ๋กœ, ๋งˆ์ง€๋ง‰ ๋‘ ๊ฐœ์˜ FC ์ธต์€ 1ร—1 conv ์ธต์œผ๋กœ ๋ณ€ํ™˜). ์ด๋ ‡๊ฒŒ ์–ป์–ด์ง„ ์™„์ „ํ•ฉ์„ฑ๊ณฑ ๋„คํŠธ์›Œํฌ๋Š” ์ „์ฒด(์ž˜๋ฆฌ์ง€ ์•Š์€) ์ด๋ฏธ์ง€์— ์ ์šฉ๋œ๋‹ค. ๊ฒฐ๊ณผ๋Š” ํด๋ž˜์Šค ์ˆ˜์™€ ๋™์ผํ•œ ์ฑ„๋„์„ ๊ฐ–๋Š” ํด๋ž˜์Šค ์ ์ˆ˜ ๋งต์ด๋ฉฐ, ์ด๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๊ณ ์ • ํฌ๊ธฐ ํด๋ž˜์Šค ์ ์ˆ˜ ๋ฒกํ„ฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํด๋ž˜์Šค ์ ์ˆ˜ ๋งต์„ ๊ณต๊ฐ„์ ์œผ๋กœ ํ‰๊ท (sum-pooling)ํ•œ๋‹ค. ๋˜ํ•œ ํ…Œ์ŠคํŠธ์…‹ ์ฆ๊ฐ•์„ ์œ„ํ•ด ์ด๋ฏธ์ง€๋ฅผ ์ขŒ์šฐ ๋ฐ˜์ „ํ•˜๊ณ , ์›๋ณธ๊ณผ ๋ฐ˜์ „๋œ ์ด๋ฏธ์ง€์˜ soft-max ํด๋ž˜์Šค posterior๋ฅผ ํ‰๊ท ๋‚ด์–ด ์ตœ์ข… ์ ์ˆ˜๋ฅผ ์–ป๋Š”๋‹ค.

์™„์ „ํ•ฉ์„ฑ๊ณฑ ๋„คํŠธ์›Œํฌ๋ฅผ ์ „์ฒด ์ด๋ฏธ์ง€์— ์ ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํ…Œ์ŠคํŠธ ์‹œ ์—ฌ๋Ÿฌ crop์„ ์ƒ˜ํ”Œ๋งํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค(Krizhevsky et al., 2012). ์—ฌ๋Ÿฌ crop์€ ๋น„ํšจ์œจ์ ์ด๋ฉฐ crop๋งˆ๋‹ค ๋„คํŠธ์›Œํฌ๋ฅผ ๋‹ค์‹œ ๊ณ„์‚ฐํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Szegedy et al. (2014)์ฒ˜๋Ÿผ ๋งŽ์€ crop์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ๋” ์„ธ๋ฐ€ํ•œ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์ƒ˜ํ”Œ๋ง์ด ์ด๋ฃจ์–ด์ ธ ์ •ํ™•๋„๊ฐ€ ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ multi-crop ํ‰๊ฐ€์™€ dense ํ‰๊ฐ€๊ฐ€ ์ƒํ˜ธ ๋ณด์™„์ ์ธ๋ฐ, ์ด๋Š” ํ•ฉ์„ฑ๊ณฑ ๊ฒฝ๊ณ„ ์กฐ๊ฑด์ด ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. crop์— ConvNet์„ ์ ์šฉํ•˜๋ฉด ํ•ฉ์„ฑ๊ณฑ feature map์€ 0์œผ๋กœ ํŒจ๋”ฉ๋˜์ง€๋งŒ, dense ํ‰๊ฐ€์—์„œ๋Š” ๋™์ผํ•œ crop์˜ ํŒจ๋”ฉ์ด ์ด๋ฏธ์ง€์˜ ์ธ์ ‘ ๋ถ€๋ถ„์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์œ ๋„๋œ๋‹ค(ํ•ฉ์„ฑ๊ณฑ๊ณผ pooling ๋ชจ๋‘๋กœ ์ธํ•ด). ์ด๋Š” ์ „์ฒด ๋„คํŠธ์›Œํฌ์˜ ์ˆ˜์šฉ์˜์—ญ์„ ํฌ๊ฒŒ ํ™•์žฅ์‹œ์ผœ ๋” ๋งŽ์€ ์ปจํ…์ŠคํŠธ๋ฅผ ํฌ์ฐฉํ•˜๊ฒŒ ํ•œ๋‹ค. ์‹ค์ œ๋กœ๋Š” multi-crop์ด ๊ณ„์‚ฐ ์‹œ๊ฐ„์ด ํฌ๊ฒŒ ๋Š˜์–ด๋‚˜ ์ •ํ™•๋„ ๊ฐœ์„  ๋Œ€๋น„ ํšจ์œจ์„ฑ์ด ๋‚ฎ๋‹ค๊ณ  ๋ณด์ง€๋งŒ, ์ฐธ๊ณ ๋กœ ์šฐ๋ฆฌ๋Š” ๊ฐ ์Šค์ผ€์ผ๋‹น 50๊ฐœ crop(5ร—5 ๊ฒฉ์ž์™€ ์ขŒ์šฐ ๋ฐ˜์ „ 2๊ฐœ)์„ ์‚ฌ์šฉํ•ด ์ด 150 crop(3๊ฐœ ์Šค์ผ€์ผ)์œผ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ‰๊ฐ€ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” Szegedy et al. (2014)๊ฐ€ 4๊ฐœ ์Šค์ผ€์ผ์—์„œ 144 crop์„ ์‚ฌ์šฉํ•œ ๊ฒƒ๊ณผ ์œ ์‚ฌํ•˜๋‹ค.

3.3. ๊ตฌํ˜„ ๋””ํ…Œ์ผ

์šฐ๋ฆฌ์˜ ๊ตฌํ˜„์€ ๊ณต๊ฐœ๋œ C++ Caffe ํˆด๋ฐ•์Šค(Jia, 2013, 2013๋…„ 12์›” fork)์—์„œ ํŒŒ์ƒ๋˜์—ˆ์œผ๋‚˜, ๋‹ค์ˆ˜์˜ ์ค‘์š”ํ•œ ์ˆ˜์ • ์‚ฌํ•ญ์„ ํฌํ•จํ•œ๋‹ค. ์ด๋กœ์จ ๋‹จ์ผ ์‹œ์Šคํ…œ์— ์„ค์น˜๋œ ๋‹ค์ค‘ GPU์—์„œ ํ›ˆ๋ จ๊ณผ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์ค‘ ์Šค์ผ€์ผ์—์„œ ์ž˜๋ฆฌ์ง€ ์•Š์€(full-size) ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค(์•ž์„œ ์„ค๋ช…ํ•œ ๋ฐ”์™€ ๊ฐ™์ด). ๋‹ค์ค‘ GPU ํ•™์Šต์€ ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ์„ฑ(data parallelism)์„ ํ™œ์šฉํ•˜๋ฉฐ, ๊ฐ ํ•™์Šต ๋ฐฐ์น˜๋ฅผ ์—ฌ๋Ÿฌ GPU ๋ฐฐ์น˜๋กœ ๋ถ„ํ• ํ•˜์—ฌ ๊ฐ GPU์—์„œ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค. GPU ๋ฐฐ์น˜์˜ gradient๊ฐ€ ๊ณ„์‚ฐ๋œ ํ›„ ํ‰๊ท ๋˜์–ด ์ „์ฒด ๋ฐฐ์น˜์˜ gradient๋ฅผ ์–ป๋Š”๋‹ค. gradient ๊ณ„์‚ฐ์€ GPU ๊ฐ„ ๋™๊ธฐ์ ์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋ฏ€๋กœ ๋‹จ์ผ GPU์—์„œ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ์™€ ์™„์ „ํžˆ ๋™์ผํ•˜๋‹ค. ์ตœ๊ทผ Krizhevsky (2014)๋Š” ConvNet ํ•™์Šต์„ ๊ฐ€์†ํ•˜๊ธฐ ์œ„ํ•œ ๋” ์ •๊ตํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋„คํŠธ์›Œํฌ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ธต์— ๋Œ€ํ•ด ๋ชจ๋ธ ๋ณ‘๋ ฌ์„ฑ๊ณผ ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ์„ฑ์„ ๊ฒฐํ•ฉํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๋Š” ๊ฐœ๋…์ ์œผ๋กœ ํ›จ์”ฌ ๋‹จ์ˆœํ•œ ๋ฐฉ์‹์ด ์ด๋ฏธ ๋‹จ์ผ GPU ๋Œ€๋น„ 4-GPU ์‹œ์Šคํ…œ์—์„œ ์•ฝ 3.75๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•จ์„ ํ™•์ธํ–ˆ๋‹ค. NVIDIA Titan Black GPU 4๊ฐœ๋ฅผ ์žฅ์ฐฉํ•œ ์‹œ์Šคํ…œ์—์„œ, ๋‹จ์ผ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ์•„ํ‚คํ…์ฒ˜์— ๋”ฐ๋ผ 2โ€“3์ฃผ๊ฐ€ ์†Œ์š”๋˜์—ˆ๋‹ค.

๋‚ด์šฉ

3. Classification Framework

3.1. Training

  • ๋ชจ๋ฉ˜ํ…€์„ ํ™œ์šฉํ•œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(m = 0.9, batch = 256)
  • ์ •๊ทœํ™” : L2
  • dropout = 0.5(์ฒซ ๋‘๊ฐœ์˜ fc layer)
  • Loss : multinomial logistic regression
  • ํ•™์Šต๋ฅ  : ์ž„์˜ ์ •์˜(๊ฐœ์„  x 10๋ฐฐ ๊ฐ์†Œ)
  • ์ด 74์—ํญ
  • ๋ฌด๊ฑฐ์›€์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ปค๋„ ์Œ“๊ธฐ์— ๋Œ€ํ•œ ์ •๊ทœํ™” + ์ผ๋ถ€ ์ธต ์‚ฌ์ „ ์ดˆ๊ธฐํ™”๋กœ ์ธํ•ด ๋” ์ ์€ ์‹œ๊ฐ„ ์†Œ์š”
  • ์ดˆ๊ธฐํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•˜์—ฌ, ์–•์•„์„œ ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”๋กœ๋„ ํ•™์Šต๊ฐ€๋Šฅํ•œ A๋ฅผ ํ•™์Šต
    • ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ : ์ฒ˜์Œ 4๊ฐœ์˜ CNN layer๊ณผ ๋งˆ์ง€๋ง‰ fc layer๋“ค์„ A์˜ ๋„คํŠธ์›Œํฌ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”, ๋‚˜๋จธ์ง€๋Š” ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”(ํ•™์Šต๋ฅ  ๊ฐ์‡  X)
    • ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”์˜ ๊ฒฝ์šฐ ํ‰๊ท  0, ๋ถ„์‚ฐ $10^{-2}$์ธ ์ •๊ทœ๋ถ„ํฌ์—์„œ ๊ฐ€์ค‘์น˜๋ฅผ ์ƒ˜ํ”Œ๋งํ–ˆ๊ณ , bias๋Š” 0์œผ๋กœ ์ดˆ๊ธฐํ™”

[!NOTE] ์„ธ์ด๋น„์–ด ์ดˆ๊ธฐํ™”(Xavier Initialization)

์‹ ํ˜ธ(ํ™œ์„ฑํ™” ๊ฐ’)๊ฐ€ ๋„คํŠธ์›Œํฌ์˜ ์—ฌ๋Ÿฌ ์ธต์„ ํ†ต๊ณผํ•˜๋”๋ผ๋„ ๊ทธ ๋ถ„์‚ฐ(ํฌ๊ธฐ)์„ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜์—ฌ, ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(Vanishing Gradient)์ด๋‚˜ ๊ธฐ์šธ๊ธฐ ํญ์ฃผ(Exploding Gradient) ๋ฌธ์ œ๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ  ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒํ•˜๋Š” ๊ฒƒ

  • ํšจ๊ณผ: ์ด ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด ์ธต์ด ๊นŠ์–ด์ ธ๋„ ์‹ ํ˜ธ๊ฐ€ ์•ˆ์ •์ ์œผ๋กœ ์ „๋‹ฌ๋˜์–ด, ํ•™์Šต ์ดˆ๊ธฐ ๋‹จ๊ณ„๊ฐ€ ์›ํ™œํ•ด์ง€๊ณ  ๋ชจ๋ธ์˜ ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋นจ๋ผ์ง‘๋‹ˆ๋‹ค.
  • ํ•œ๊ณ„: ์„ธ์ด๋น„์–ด ์ดˆ๊ธฐํ™”๋Š” ์ฃผ๋กœ Sigmoid๋‚˜ Tanh์™€ ๊ฐ™์€ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์ด ํ•จ์ˆ˜๋“ค์€ ์ค‘์•™ ๋ถ€๋ถ„์ด ์„ ํ˜•์— ๊ฐ€๊น๋‹ค๋Š” ๊ฐ€์ • ํ•˜์— ์œ ๋„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉด, ํ™œ์„ฑํ™” ๊ฐ’์˜ ์ ˆ๋ฐ˜์ด 0์ด ๋˜๋ฉด์„œ ๋ถ„์‚ฐ์ด ์ค„์–ด๋“ค์–ด ๋‹ค์‹œ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค

์ฐธ๊ณ : https://at0z.tistory.com/35

  • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• : ๋ฆฌ์Šค์ผ€์ผ+๋ฌด์ž‘์œ„ crop, ์ƒ‰๋ณ€ํ™˜๊ณผ ๋’ค์ง‘๊ธฐ๋Š”AlexNet์˜ ์ฆ๊ฐ•๊ธฐ๋ฒ•๊ณผ ๋™์ผ
ํ›ˆ๋ จ๋ฐ์ดํ„ฐ
  • 224๋ณด๋‹ค ํฐ S๋ฅผ ์„ค์ •ํ•˜๊ณ , ๋‘๊ฐ€์ง€ ์ ‘๊ทผ์„ ๊ณ ๋ ค
    • ๋‹จ์ผ์Šค์ผ€์ผ : ์—ฐ๊ตฌ ๋‚ด์—์„œ๋Š” 256 -> 384๋ฅผ ์‚ฌ์šฉ ์ž‘์€ S๋กœ ์‚ฌ์ „ํ•™์Šต ํ›„ 384๋ฅผ ํ•™์Šต(ํ•™์Šต๋ฅ  $10^{-3}$)
    • ๋‹ค์ค‘์Šค์ผ€์ผ : ๊ฐ ํ›ˆ๋ จ์ด๋ฏธ์ง€๋ฅผ [S_min, S_max]๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋œ S๋กœ ๋ฆฌ์Šค์ผ€์ผ์„ ์ง„ํ–‰์œผ๋กœ ์Šค์ผ€์ผ ์ง€ํ„ฐ๋ง(scale jittering)์— ์˜ํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์œผ๋กœ๋„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

[!NOTE] ์Šค์ผ€์ผ์ง€ํ„ฐ๋ง(Scale Jittering)

  • ์Šค์ผ€์ผ (Scale): ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ ๋˜๋Š” ๋ฐฐ์œจ
  • ์ง€ํ„ฐ๋ง (Jittering): ๋ฌด์–ธ๊ฐ€๋ฅผ ๋ฏธ์„ธํ•˜๊ณ  ๋ถˆ๊ทœ์น™ํ•˜๊ฒŒ ํ”๋“œ๋Š” ๊ฒƒ

์ฆ‰, โ€˜์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ ์กฐ๊ธˆ์”ฉ ๋ฌด์ž‘์œ„๋กœ ๋ฐ”๊พธ๋Š” ๊ฒƒโ€™์„ ์˜๋ฏธํ•ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๋™์ผํ•œ ๊ณ ์–‘์ด ์‚ฌ์ง„์„ ๋ณด์—ฌ์ค„ ๋•Œ๋งˆ๋‹ค ํฌ๊ธฐ๋ฅผ 90%, 115%, 85%, 120% ๋“ฑ์œผ๋กœ ๊ณ„์† ๋ฐ”๊ฟ”์„œ ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”- | | Loss | ๋‹คํ•ญ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ (Softmax cross-entropy) | | Optimizer | ๋ฏธ๋‹ˆ๋ฐฐ์น˜ SGD + Momentum(0.9) | | ์ •๊ทœํ™” | Weight decay(5eโˆ’4), Dropout(0.5, FC์ธต) | | ํ•™์Šต๋ฅ  | ์ดˆ๊ธฐ 0.01, ๊ฐœ์„  ์ •์ฒด ์‹œ 10๋ฐฐ ๊ฐ์†Œ, ์ด 3ํšŒ ๊ฐ์†Œ | | ์ดˆ๊ธฐํ™” | ์–•์€ A๋กœ ํ•™์Šต ํ›„, deeper ๋ชจ๋ธ ์ผ๋ถ€ ์ธต์— ์žฌ์‚ฌ์šฉ | | ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• | Random crop, flip, RGB shift, scale jittering | | ์Šค์ผ€์ผ ์„ค์ • | S=256, 384 (๊ณ ์ •) / [256,512] (multi-scale) |

3.2. Testing

  • Q(ํ…Œ์ŠคํŠธ ์Šค์ผ€์ผ, ๋“ฑ๋น„์ , S์™€ ๋™์ผํ•  ํ•„์š” ์—†์Œ - ์˜คํžˆ๋ ค ์„ฑ๋Šฅ ํ–ฅ์ƒ)
  • fc layer๋“ค์„ conv๋กœ ๋ณ€ํ™˜(7x7 -> 1x1 -> 1x1)ํ›„ ์ž˜๋ฆฌ์ง€ ์•Š์€ ์ด๋ฏธ์ง€์— ์ ์šฉ
  • output์€ class์ˆ˜์™€ ๋™์ผํ•œ ์ฑ„๋„์ˆ˜๋ฅผ ๊ฐ€์ง€๋Š” ํด๋ž˜์Šค ์ ์ˆ˜ ๋งต, ์ž…๋ ฅ ์ด๋ฏธ์ง€์— ๋”ฐ๋ผ ๊ณต๊ฐ„ํ•ด์ƒ๋„๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค
    • ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๊ณ ์ • class ๋ฒกํ„ฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด, ํด๋ž˜์Šค ๋งต์„ ๊ณต๊ฐ„์ ์œผ๋กœ ํ‰๊ท (sum-pooling)
  • ํ…Œ์ŠคํŠธ์…‹ ์ฆ๊ฐ• : ์ขŒ์šฐ ๋ฐ˜์ „ ํ›„ softmaxํด๋ž˜์Šค์˜ posterior์„ ๋‚ด์„œ ํ‰๊ท ํ›„ ์ตœ์ข… ์ ์ˆ˜

[!NOTE] FC Layer๋ฅผ Conv Layer๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์›๋ฆฌ

๊ฐ€์ค‘์น˜ ์œ ์ง€๋Š” ์–ด๋–ป๊ฒŒ?
  • ๊ธฐ์กด ๋ฐฉ์‹ (FC Layer):

    1. 7x7x512 ํฌ๊ธฐ์˜ ํ”ผ์ฒ˜ ๋งต์„ ์ผ๋ ฌ๋กœ ์ญ‰ ํ…๋‹ˆ๋‹ค(flatten). ๊ทธ๋Ÿฌ๋ฉด 25,088 (7 * 7 * 512) ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

    2. ์ด ๋ฒกํ„ฐ์— [25088, 4096] ํฌ๊ธฐ์˜ ๊ฑฐ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ๊ณฑํ•ฉ๋‹ˆ๋‹ค.

    3. ๊ฒฐ๊ณผ์ ์œผ๋กœ 4096 ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค.

  • ๋ณ€ํ™˜ ๋ฐฉ์‹ (Conv Layer):

    1. [25088, 4096] ํฌ๊ธฐ์˜ FC ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ [7, 7, 512, 4096] ํฌ๊ธฐ์˜ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ(์ปค๋„)๋กœ ํ˜•ํƒœ๋ฅผ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค(reshape).

    2. ์ด๊ฒƒ์€ ๊ณง, ํฌ๊ธฐ๊ฐ€ 7x7์ด๊ณ  ์ž…๋ ฅ ์ฑ„๋„์ด 512์ธ ํ•„ํ„ฐ๊ฐ€ 4096๊ฐœ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

    3. ์ด 7x7x512 ํฌ๊ธฐ์˜ ํ•„ํ„ฐ 4096๊ฐœ๋ฅผ 7x7x512 ์ž…๋ ฅ ํ”ผ์ฒ˜ ๋งต์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.

    4. ํ•„ํ„ฐ์˜ ๊ณต๊ฐ„์  ํฌ๊ธฐ(7x7)๊ฐ€ ์ž…๋ ฅ ํ”ผ์ฒ˜ ๋งต์˜ ๊ณต๊ฐ„์  ํฌ๊ธฐ(7x7)์™€ ์ •ํ™•ํžˆ ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์—, ํ•„ํ„ฐ๋Š” ํ•œ ๋ฒˆ๋งŒ ์—ฐ์‚ฐ๋˜๊ณ  ๊ฒฐ๊ณผ์ ์œผ๋กœ 1x1x4096 ํฌ๊ธฐ์˜ ์ถœ๋ ฅ ๋งต์ด ๋‚˜์˜ต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ํฌ์ธํŠธ: 25,088 ํฌ๊ธฐ ๋ฒกํ„ฐ์™€ [25088, 4096] ํ–‰๋ ฌ์˜ ๊ณฑ์…ˆ ์—ฐ์‚ฐ์€, 7x7x512 ํ”ผ์ฒ˜ ๋งต์— 7x7x512 ํฌ๊ธฐ์˜ ํ•„ํ„ฐ 4096๊ฐœ๋ฅผ ์ ์šฉํ•˜๋Š” ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ๊ณผ ์ˆ˜ํ•™์ ์œผ๋กœ ์™„์ „ํžˆ ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์ค‘์น˜๋Š” ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋‹จ์ง€ ์—ฐ์‚ฐ ๋ฐฉ์‹์˜ ๊ด€์ ๋งŒ ๋ฐ”๋€ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • Conv๋กœ ๋ฐ”๊พธ๊ธฐ ๋•Œ๋ฌธ์— ํ…Œ์ŠคํŠธ์‹œ cropํ•  ํ•„์š”๊ฐ€ ์—†์œผ๋‚˜, Szegedy et al. (2014)์ฒ˜๋Ÿผ ๋งŽ์€ crop์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ๋” ์„ธ๋ฐ€ํ•œ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์ƒ˜ํ”Œ๋ง์ด ์ด๋ฃจ์–ด์ ธ ์ •ํ™•๋„๊ฐ€ ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ๋‹ค.
  • multi crop ํ‰๊ฐ€์™€ dense ํ‰๊ฐ€๊ฐ€ ์ƒํ˜ธ ๋ณด์™„์ , ์ด๋Š” ํ•ฉ์„ฑ๊ณฑ ๊ฒฝ๊ณ„์กฐ๊ฑด์ด ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
    • crop์— ConvNet์„ ์ ์šฉํ•˜๋ฉด ํ•ฉ์„ฑ๊ณฑ feature map์€ 0์œผ๋กœ ํŒจ๋”ฉ๋˜์ง€๋งŒ
    • dense ํ‰๊ฐ€์—์„œ๋Š” ๋™์ผํ•œ crop์˜ ํŒจ๋”ฉ์ด ์ด๋ฏธ์ง€์˜ ์ธ์ ‘ ๋ถ€๋ถ„์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์œ ๋„๋œ๋‹ค. ์ด๋Š” ์ „์ฒด ๋„คํŠธ์›Œํฌ์˜ ์ˆ˜์šฉ์˜์—ญ์„ ํฌ๊ฒŒ ํ™•์žฅ์‹œ์ผœ ๋” ๋งŽ์€ ์ปจํ…์ŠคํŠธ๋ฅผ ํฌ์ฐฉ
  • ์ฆ‰ conv๋กœ ๋ฐ”๊พธ์–ด ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ denseํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๋ฉด multi crop๋ณด๋‹ค ํšจ์œจ์ ์ž„, ๋‹ค๋งŒ multi-crop์„ ์‚ฌ์šฉ์‹œ ์ •ํ™•๋„๋ฅผ ์กฐ๊ธˆ ๋” ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.

[!NOTE] Multi-crop vs Dense ํ‰๊ฐ€ ๋ฐฉ์‹ ๋น„๊ต

Multi-crop ํ‰๊ฐ€ (Krizhevsky et al. ๋ฐฉ์‹)

  • ์›๋ณธ ์ด๋ฏธ์ง€์—์„œ ์—ฌ๋Ÿฌ crop(์˜ˆ: 224ร—224)์„ ์ž˜๋ผ๋ƒ…๋‹ˆ๋‹ค.
  • ์ž˜๋ผ๋‚ธ crop๋งŒ ConvNet์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค.
  • ConvNet ์—ฐ์‚ฐ ๊ณผ์ •์—์„œ, feature map์˜ ๊ฒฝ๊ณ„ ๋ถ€๋ถ„์€ 0-padding์„ ์”๋‹ˆ๋‹ค.
    • ์˜ˆ: 3ร—3 conv๋ผ๋ฉด, ๋ฐ”๊นฅ์ชฝ ํ•œ ์นธ์€ ์‹ค์ œ ํ”ฝ์…€์ด ์•„๋‹ˆ๋ผ 0์ด ์ฑ„์›Œ์ ธ์„œ ์—ฐ์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ crop ์ฃผ๋ณ€(์ž๋ฅธ ์˜์—ญ ๋ฐ”๊นฅ)์˜ ์ •๋ณด๋Š” ์•„์˜ˆ ์—†๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
  • ์ฆ‰, crop ๋‹จ์œ„๋กœ ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ณ ๋ฆฝ๋œ ์ƒํƒœ์—์„œ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

    2. Dense ํ‰๊ฐ€ (Sermanet ๋ฐฉ์‹, VGG์—์„œ ํ™œ์šฉ)

  • FC layer๋ฅผ conv๋กœ ๋ณ€ํ™˜ํ•ด ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ ํ•œ ๋ฒˆ์— ๋„ฃ์Šต๋‹ˆ๋‹ค.
  • ์ด๋•Œ ๋„คํŠธ์›Œํฌ๋Š” sliding window ๋ฐฉ์‹์œผ๋กœ ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ ํ›‘์œผ๋ฉด์„œ ์ง€์—ญ์ ์ธ feature๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • ์–ด๋–ค ์œ„์น˜์˜ receptive field๊ฐ€ ์›๋ž˜ crop ์˜์—ญ๊ณผ ๊ฒน์นœ๋‹ค๊ณ  ํ•ด๋„, ๊ทธ receptive field์˜ ๋ฐ”๊นฅ์ชฝ ํ”ฝ์…€์€ ์‹ค์ œ๋กœ ์กด์žฌํ•˜๋Š” ์ด์›ƒ ํ”ฝ์…€์„ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.
    • ์ฆ‰, crop์„ ๋”ฐ๋กœ ์ž๋ฅธ ๊ฒฝ์šฐ์—” ๋ฐ”๊นฅ์ด โ€œ0โ€์ธ๋ฐ, dense ํ‰๊ฐ€์—์„  ๋ฐ”๊นฅ์ชฝ์ด โ€œ์‹ค์ œ ๋‹ค๋ฅธ ๋ถ€๋ถ„ ํ”ฝ์…€โ€์ด ๋˜๋Š” ๊ฑฐ์˜ˆ์š”.

      3. ์ฐจ์ด๊ฐ€ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ

  • Multi-crop ํ‰๊ฐ€: crop ๋ฐ”๊นฅ์€ ๋ฌด์กฐ๊ฑด 0์œผ๋กœ ๊ฐ€์ • โ†’ ๋ฌธ๋งฅ(Context) ์ •๋ณด ์†์‹ค
  • Dense ํ‰๊ฐ€: crop ๋ฐ”๊นฅ์€ ์‹ค์ œ ์ด๋ฏธ์ง€์˜ ๋‹ค๋ฅธ ๋ถ€๋ถ„์œผ๋กœ ์ฑ„์›Œ์ง โ†’ receptive field๊ฐ€ ๋„“์–ด์ ธ ๋” ๋งŽ์€ ์ปจํ…์ŠคํŠธ ํ™œ์šฉ ๊ฐ€๋Šฅ ์ฆ‰, ๊ฐ™์€ ์œ„์น˜์˜ crop์ด๋ผ๋„ dense ํ‰๊ฐ€์—์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๊ฒŒ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€”โ€”โ€”- | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”- | | ํ…Œ์ŠคํŠธ ์ž…๋ ฅ Q | ์ตœ์†Œ ๋ณ€ ๊ธธ์ด Q๋กœ ๋ฆฌ์Šค์ผ€์ผ, ํ•™์Šต ์Šค์ผ€์ผ S์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Œ | | ๋ฐฉ๋ฒ• 1 (Dense) | FC โ†’ conv ๋ณ€ํ™˜, ์ „์ฒด ์ด๋ฏธ์ง€ ํ‰๊ฐ€, score map ํ‰๊ท  | | ๋ฐฉ๋ฒ• 2 (Multi-crop) | crop ์—ฌ๋Ÿฌ ๊ฐœ ์ถ”์ถœ ํ›„ ํ‰๊ฐ€, ๋ณด์™„์  ํšจ๊ณผ ์žˆ์Œ | | ์žฅ์ /๋‹จ์  | Dense: ํšจ์œจ์  / Multi-crop: ๊ณ„์‚ฐ๋Ÿ‰ ํฌ์ง€๋งŒ ์ •ํ™•๋„ โ†‘ | | ์‹คํ—˜ ์„ค์ • | VGG: 3๊ฐœ ์Šค์ผ€์ผ ร— 50 crop = 150 crop ํ‰๊ฐ€ |

3.3. ๊ตฌํ˜„ ๋””ํ…Œ์ผ

ํฌ์ธํŠธ

ํ•ญ๋ชฉ๋‚ด์šฉ
๊ตฌํ˜„ ๊ธฐ๋ฐ˜Caffe (2013๋…„ 12์›” fork)
์ฃผ์š” ์ˆ˜์ • ์‚ฌํ•ญ๋ฉ€ํ‹ฐ GPU ํ•™์Šต, ์ „์ฒด ์ด๋ฏธ์ง€ ๋ฉ€ํ‹ฐ์Šค์ผ€์ผ ํ‰๊ฐ€ ์ง€์›
๋ณ‘๋ ฌํ™” ๋ฐฉ์‹๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ (batch ๋ถ„ํ• , gradient ํ‰๊ท , ๋™๊ธฐ์‹)
์†๋„ ํ–ฅ์ƒ4-GPU ์‚ฌ์šฉ ์‹œ 3.75๋ฐฐ ๊ฐ€์†
ํ•˜๋“œ์›จ์–ดNVIDIA Titan Black ร—4
ํ•™์Šต ์‹œ๊ฐ„๋‹จ์ผ ๋„คํŠธ์›Œํฌ ํ•™์Šต์— 2โ€“3์ฃผ (์•„ํ‚คํ…์ฒ˜ ์˜์กด)

๐Ÿ“š 4. Classification Experiments

๋ฒˆ์—ญ

๋ฐ์ดํ„ฐ์…‹ ๋ณธ ์žฅ์—์„œ๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ ConvNet ์•„ํ‚คํ…์ฒ˜๋“ค์ด ILSVRC-2012 ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋‹ฌ์„ฑํ•œ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•œ๋‹ค(์ด ๋ฐ์ดํ„ฐ์…‹์€ ILSVRC 2012โ€“2014 ์ฑŒ๋ฆฐ์ง€์— ์‚ฌ์šฉ๋จ). ๋ฐ์ดํ„ฐ์…‹์€ 1000๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์„ธ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰œ๋‹ค: ํ•™์Šต ์„ธํŠธ(130๋งŒ ์žฅ), ๊ฒ€์ฆ ์„ธํŠธ(5๋งŒ ์žฅ), ํ…Œ์ŠคํŠธ ์„ธํŠธ(10๋งŒ ์žฅ, ๋ผ๋ฒจ์€ ๋น„๊ณต๊ฐœ). ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ์€ ๋‘ ๊ฐ€์ง€ ์ง€ํ‘œ๋กœ ํ‰๊ฐ€๋œ๋‹ค: top-1 ์—๋Ÿฌ์™€ top-5 ์—๋Ÿฌ. top-1 ์—๋Ÿฌ๋Š” ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ์˜ค์ฐจ(์ฆ‰, ์ž˜๋ชป ๋ถ„๋ฅ˜๋œ ์ด๋ฏธ์ง€์˜ ๋น„์œจ)๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, top-5 ์—๋Ÿฌ๋Š” ILSVRC์˜ ์ฃผ์š” ํ‰๊ฐ€ ๊ธฐ์ค€์œผ๋กœ, ์ •๋‹ต ํด๋ž˜์Šค๊ฐ€ ์˜ˆ์ธก๋œ ์ƒ์œ„ 5๊ฐœ ํด๋ž˜์Šค ๋ฐ–์— ์žˆ์„ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์‹คํ—˜์—์„œ๋Š” ๊ฒ€์ฆ ์„ธํŠธ๋ฅผ ํ…Œ์ŠคํŠธ ์„ธํŠธ๋กœ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ผ๋ถ€ ์‹คํ—˜์€ ์‹ค์ œ ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ๋„ ์ˆ˜ํ–‰๋˜์–ด, ILSVRC-2014 ๋Œ€ํšŒ์— โ€œVGGโ€ ํŒ€ ์—”ํŠธ๋ฆฌ๋กœ ์ œ์ถœ๋˜์—ˆ๋‹ค(Russakovsky et al., 2014).

4.1. SINGLE SCALE EVALUATION

์šฐ๋ฆฌ๋Š” ๋จผ์ € 2.2์ ˆ์—์„œ ์„ค๋ช…ํ•œ ์ธต ๊ตฌ์„ฑ์„ ๊ฐ€์ง„ ๊ฐœ๋ณ„ ConvNet ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋‹จ์ผ ์Šค์ผ€์ผ์—์„œ ํ‰๊ฐ€ํ•œ๋‹ค. ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋Š” ๊ณ ์ •๋œ S์˜ ๊ฒฝ์šฐ Q = S๋กœ ์„ค์ •ํ–ˆ๊ณ , jittered S โˆˆ [S_min, S_max]์˜ ๊ฒฝ์šฐ Q = 0.5(S_min + S_max)๋กœ ์„ค์ •ํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ํ‘œ 3์— ์ œ์‹œ๋˜์–ด ์žˆ๋‹ค. ์ฒซ์งธ, Local Response Normalisation(LRN, A-LRN ๋„คํŠธ์›Œํฌ ์‚ฌ์šฉ)์€ ์ •๊ทœํ™” ์ธต์ด ์—†๋Š” ๋ชจ๋ธ A๋ณด๋‹ค ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ๋” ๊นŠ์€ ์•„ํ‚คํ…์ฒ˜(Bโ€“E)์—์„œ๋Š” ์ •๊ทœํ™”๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค.

๋‘˜์งธ, ConvNet ๊นŠ์ด๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜๊ฐ€ ๊ฐ์†Œํ•œ๋‹ค: A์˜ 11์ธต์—์„œ E์˜ 19์ธต๊นŒ์ง€. ํŠนํžˆ ๋™์ผํ•œ ๊นŠ์ด์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  1ร—1 conv ์ธต ์„ธ ๊ฐœ๋ฅผ ํฌํ•จํ•˜๋Š” ๊ตฌ์„ฑ C๋Š” ๋„คํŠธ์›Œํฌ ์ „์ฒด์—์„œ 3ร—3 conv ์ธต์„ ์‚ฌ์šฉํ•˜๋Š” ๊ตฌ์„ฑ D๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋‹ค. ์ด๋Š” ์ถ”๊ฐ€์ ์ธ ๋น„์„ ํ˜•์„ฑ์ด ๋„์›€์ด ๋˜๊ธด ํ•˜์ง€๋งŒ(C๊ฐ€ B๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚˜์Œ), ๊ณต๊ฐ„์  ๋ฌธ๋งฅ์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๋น„์ž๋ช…ํ•œ ์ˆ˜์šฉ์˜์—ญ(conv ํ•„ํ„ฐ)์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค(D๊ฐ€ C๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚˜์Œ). ์•„ํ‚คํ…์ฒ˜์˜ ์˜ค๋ฅ˜์œจ์€ ๊นŠ์ด๊ฐ€ 19์ธต์— ๋„๋‹ฌํ–ˆ์„ ๋•Œ ํฌํ™”๋˜์ง€๋งŒ, ๋” ํฐ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๋” ๊นŠ์€ ๋ชจ๋ธ์ด ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ์šฐ๋ฆฌ๋Š” net B๋ฅผ ์–•์€ ๋„คํŠธ์›Œํฌ์™€ ๋น„๊ตํ–ˆ๋Š”๋ฐ, ์ด๋Š” B์˜ ๊ฐ 3ร—3 conv ์ธต ์Œ์„ ๋‹จ์ผ 5ร—5 conv ์ธต์œผ๋กœ ๋Œ€์ฒดํ•œ ๊ฒƒ์ด๋‹ค(2.3์ ˆ์—์„œ ์„ค๋ช…ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ๋™์ผํ•œ ์ˆ˜์šฉ์˜์—ญ). ์–•์€ ๋„คํŠธ์›Œํฌ์˜ top-1 ์˜ค๋ฅ˜์œจ์€ B๋ณด๋‹ค 7% ๋” ๋†’์•˜๋Š”๋ฐ(center crop ๊ธฐ์ค€), ์ด๋Š” ์ž‘์€ ํ•„ํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊นŠ์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ํฐ ํ•„ํ„ฐ๋ฅผ ๊ฐ€์ง„ ์–•์€ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ์„ ํ™•์ธ์‹œ์ผœ์ค€๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ํ•™์Šต ์‹œ scale jittering(S โˆˆ [256; 512])์€ ๊ณ ์ •๋œ ๊ฐ€์žฅ ์งง์€ ๋ณ€ ํฌ๊ธฐ(S = 256 ๋˜๋Š” S = 384)๋กœ ํ•™์Šตํ•œ ๊ฒฝ์šฐ๋ณด๋‹ค ๊ฒฐ๊ณผ๊ฐ€ ํ˜„์ €ํžˆ ๊ฐœ์„ ๋˜๋ฉฐ, ํ…Œ์ŠคํŠธ์—์„œ๋Š” ๋‹จ์ผ ์Šค์ผ€์ผ๋งŒ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ํšจ๊ณผ์ ์ด์—ˆ๋‹ค. ์ด๋Š” scale jittering์„ ํ†ตํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ์ฆ๊ฐ•์ด ๋‹ค์ค‘ ์Šค์ผ€์ผ ์ด๋ฏธ์ง€ ํ†ต๊ณ„ ํฌ์ฐฉ์— ์‹ค์ œ๋กœ ๋„์›€์ด ๋จ์„ ํ™•์ธ์‹œ์ผœ์ค€๋‹ค.

4.2. MULTI-SCALE EVALUATION

๋‹จ์ผ ์Šค์ผ€์ผ์—์„œ ConvNet ๋ชจ๋ธ๋“ค์„ ํ‰๊ฐ€ํ•œ ํ›„, ์ด์ œ ํ…Œ์ŠคํŠธ ์‹œ์˜ scale jittering ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. ์ด๋Š” ํ•˜๋‚˜์˜ ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ ๋ฆฌ์Šค์ผ€์ผ๋œ ๋ฒ„์ „์˜ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€(Q ๊ฐ’์ด ๋‹ค๋ฆ„)์— ์ ์šฉํ•œ ํ›„, ๊ฒฐ๊ณผ ํด๋ž˜์Šค posterior๋ฅผ ํ‰๊ท ๋‚ด๋Š” ๋ฐฉ์‹์ด๋‹ค. ํ•™์Šต ์Šค์ผ€์ผ๊ณผ ํ…Œ์ŠคํŠธ ์Šค์ผ€์ผ ๊ฐ„ ๋ถˆ์ผ์น˜๊ฐ€ ํด ๊ฒฝ์šฐ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ณ ์ •๋œ S๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ํ•™์Šต ์Šค์ผ€์ผ๊ณผ ๊ฐ€๊นŒ์šด ์„ธ ๊ฐ€์ง€ ํ…Œ์ŠคํŠธ ํฌ๊ธฐ์—์„œ ํ‰๊ฐ€๋˜์—ˆ๋‹ค: Q = {S โˆ’ 32, S, S + 32}. ํ•œํŽธ, ํ•™์Šต ์‹œ scale jittering์„ ์ ์šฉํ•œ ๋ชจ๋ธ์€ ํ…Œ์ŠคํŠธ ์‹œ ๋” ๋„“์€ ์Šค์ผ€์ผ ๋ฒ”์œ„์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ณ€์ˆ˜ S โˆˆ [S_min; S_max]๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๋” ๋„“์€ ํฌ๊ธฐ ๋ฒ”์œ„์—์„œ ํ‰๊ฐ€๋˜์—ˆ๋‹ค: Q = {S_min, 0.5(S_min + S_max), S_max}. ํ‘œ 4์— ์ œ์‹œ๋œ ๊ฒฐ๊ณผ๋Š”, ํ…Œ์ŠคํŠธ ์‹œ scale jittering์ด ๋™์ผ ๋ชจ๋ธ์„ ๋‹จ์ผ ์Šค์ผ€์ผ์—์„œ ํ‰๊ฐ€ํ•œ ๊ฒƒ(Table 3)๋ณด๋‹ค ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ด์„ ๋ณด์—ฌ์ค€๋‹ค. ์•ž์„œ์™€ ๊ฐ™์ด ๊ฐ€์žฅ ๊นŠ์€ ๊ตฌ์„ฑ(D์™€ E)์ด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, scale jittering์€ ๊ณ ์ •๋œ ์ตœ์†Œ ๋ณ€ S๋กœ ํ•™์Šตํ•œ ๊ฒฝ์šฐ๋ณด๋‹ค ์šฐ์ˆ˜ํ•˜๋‹ค. ์šฐ๋ฆฌ์˜ ๋‹จ์ผ ๋„คํŠธ์›Œํฌ ๊ธฐ์ค€ ๊ฒ€์ฆ ์„ธํŠธ์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์€ top-1/top-5 ์—๋Ÿฌ 24.8%/7.5% (ํ‘œ 4์—์„œ ๊ตต๊ฒŒ ํ‘œ์‹œ). ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ๋Š” ๊ตฌ์„ฑ E๊ฐ€ top-5 ์—๋Ÿฌ 7.3%๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

4.3 MULTI-CROP EVALUATION

ํ‘œ 5์—์„œ๋Š” dense ConvNet ํ‰๊ฐ€์™€ multi-crop ํ‰๊ฐ€๋ฅผ ๋น„๊ตํ•œ๋‹ค(์ž์„ธํ•œ ๋‚ด์šฉ์€ 3.2์ ˆ ์ฐธ์กฐ). ๋˜ํ•œ ๋‘ ํ‰๊ฐ€ ๊ธฐ๋ฒ•์˜ soft-max ์ถœ๋ ฅ์„ ํ‰๊ท ํ•˜์—ฌ ์ƒํ˜ธ ๋ณด์™„์„ฑ์„ ํ‰๊ฐ€ํ•œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ๋‹ค์ค‘ crop์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด dense ํ‰๊ฐ€๋ณด๋‹ค ์•ฝ๊ฐ„ ๋” ์šฐ์ˆ˜ํ•˜๋ฉฐ, ๋‘ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๊ฒฐํ•ฉํ•˜๋ฉด ๊ฐ๊ฐ์˜ ์„ฑ๋Šฅ์„ ์ดˆ๊ณผํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‚ธ๋‹ค. ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ์ด๋Š” ํ•ฉ์„ฑ๊ณฑ ๊ฒฝ๊ณ„ ์กฐ๊ฑด์„ ๋‹ค๋ฃจ๋Š” ๋ฐฉ์‹์˜ ์ฐจ์ด ๋•Œ๋ฌธ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

4.4 CONVNET FUSION

์ง€๊ธˆ๊นŒ์ง€๋Š” ๊ฐœ๋ณ„ ConvNet ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์ด๋ฒˆ ์‹คํ—˜์—์„œ๋Š” ์—ฌ๋Ÿฌ ๋ชจ๋ธ์˜ soft-max ํด๋ž˜์Šค posterior๋ฅผ ํ‰๊ท ํ•˜์—ฌ ์ถœ๋ ฅ์„ ๊ฒฐํ•ฉํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ๋“ค์˜ ์ƒํ˜ธ ๋ณด์™„์„ฑ ๋•๋ถ„์— ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, 2012๋…„(Krizhevsky et al., 2012)๊ณผ 2013๋…„(Zeiler & Fergus, 2013; Sermanet et al., 2014) ILSVRC ์ƒ์œ„ ์ œ์ถœ์ž‘๋“ค์—์„œ๋„ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ํ‘œ 6์— ์ œ์‹œ๋˜์–ด ์žˆ๋‹ค. ILSVRC ์ œ์ถœ ์‹œ์ ์—๋Š” ๋‹จ์ผ ์Šค์ผ€์ผ ๋„คํŠธ์›Œํฌ์™€ FC ์ธต๋งŒ fine-tuningํ•œ multi-scale ๋ชจ๋ธ D๋งŒ ํ•™์Šต๋œ ์ƒํƒœ์˜€๋‹ค. ์ด๋“ค 7๊ฐœ ๋„คํŠธ์›Œํฌ ์•™์ƒ๋ธ”์€ ILSVRC ํ…Œ์ŠคํŠธ ์—๋Ÿฌ 7.3%๋ฅผ ๊ธฐ๋กํ–ˆ๋‹ค. ์ œ์ถœ ์ดํ›„, ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋‘ multi-scale ๋ชจ๋ธ(D์™€ E)๋งŒ์„ ๊ฒฐํ•ฉํ•œ ์•™์ƒ๋ธ”์„ ๊ณ ๋ คํ–ˆ๋Š”๋ฐ, dense ํ‰๊ฐ€์—์„œ๋Š” 7.0%, dense์™€ multi-crop ํ‰๊ฐ€๋ฅผ ๊ฒฐํ•ฉํ•˜๋ฉด 6.8%๋กœ ํ…Œ์ŠคํŠธ ์—๋Ÿฌ๊ฐ€ ์ค„์—ˆ๋‹ค. ์ฐธ๊ณ ๋กœ, ๋‹จ์ผ ๋ชจ๋ธ ๊ธฐ์ค€ ์ตœ๊ณ  ์„ฑ๋Šฅ์€ ๋ชจ๋ธ E๋กœ 7.1% ์—๋Ÿฌ(Table 5).

4.5 Comparison with the State of the Art

๋งˆ์ง€๋ง‰์œผ๋กœ, ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋ฅผ ํ‘œ 7์—์„œ ์ตœ์ฒจ๋‹จ(state of the art)๊ณผ ๋น„๊ตํ•œ๋‹ค. ILSVRC-2014 ๋ถ„๋ฅ˜ ๊ณผ์ œ(Russakovsky et al., 2014)์—์„œ, โ€œVGGโ€ ํŒ€์€ 7๊ฐœ ๋ชจ๋ธ ์•™์ƒ๋ธ”๋กœ 7.3% ํ…Œ์ŠคํŠธ ์—๋Ÿฌ๋ฅผ ๊ธฐ๋กํ•ด 2์œ„๋ฅผ ์ฐจ์ง€ํ–ˆ๋‹ค. ์ œ์ถœ ์ดํ›„, ๋‹จ 2๊ฐœ ๋ชจ๋ธ ์•™์ƒ๋ธ”๋กœ ์—๋Ÿฌ์œจ์„ 6.8%๊นŒ์ง€ ๋‚ฎ์ถ”์—ˆ๋‹ค. ํ‘œ 7์—์„œ ๋ณด์ด๋“ฏ, ์šฐ๋ฆฌ์˜ ๋งค์šฐ ๊นŠ์€ ConvNet์€ ILSVRC-2012 ๋ฐ ILSVRC-2013 ๋Œ€ํšŒ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๋˜ ์ด์ „ ์„ธ๋Œ€ ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•œ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” ๋ถ„๋ฅ˜ ๊ณผ์ œ ์šฐ์Šน ๋ชจ๋ธ GoogLeNet(6.7% ์—๋Ÿฌ)๊ณผ๋„ ๊ฒฝ์Ÿ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ 11.2%, ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ 11.7%๋ฅผ ๊ธฐ๋กํ•œ ILSVRC-2013 ์šฐ์Šน์ž‘ Clarifai๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚˜๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ ์€, ๋Œ€๋ถ€๋ถ„์˜ ILSVRC ์ œ์ถœ์ž‘๋“ค์ด ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•œ ๋ฐ ๋ฐ˜ํ•ด, ์šฐ๋ฆฌ๋Š” ๋‹จ 2๊ฐœ ๋ชจ๋ธ๋งŒ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋‹จ์ผ ๋„คํŠธ์›Œํฌ ์„ฑ๋Šฅ ๊ธฐ์ค€์œผ๋กœ๋Š”, ์šฐ๋ฆฌ์˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ 7.0% ํ…Œ์ŠคํŠธ ์—๋Ÿฌ๋ฅผ ๊ธฐ๋กํ•ด ๋‹จ์ผ GoogLeNet๋ณด๋‹ค 0.9% ๋” ์šฐ์ˆ˜ํ•˜๋‹ค. ์ค‘์š”ํ•œ ์ ์€, ์šฐ๋ฆฌ๋Š” LeCun et al. (1989)์˜ ์ „ํ†ต์ ์ธ ConvNet ์•„ํ‚คํ…์ฒ˜์—์„œ ๋ฒ—์–ด๋‚˜์ง€ ์•Š์•˜์œผ๋ฉฐ, ๋‹จ์ง€ ๊นŠ์ด๋ฅผ ํฌ๊ฒŒ ํ™•์žฅํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๋‚ด์šฉ

  • ๋ฐ์ดํ„ฐ์…‹์€ top-1, top-5 ์—๋Ÿฌ์œจ๋กœ ์ธก์ •

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€“ | | ๋ฐ์ดํ„ฐ์…‹ | ILSVRC-2012 (1000 ํด๋ž˜์Šค) | | ํ•™์Šต ์„ธํŠธ | 1.3M ์ด๋ฏธ์ง€ | | ๊ฒ€์ฆ ์„ธํŠธ | 50K ์ด๋ฏธ์ง€ | | ํ…Œ์ŠคํŠธ ์„ธํŠธ | 100K ์ด๋ฏธ์ง€ (๋ผ๋ฒจ ๋น„๊ณต๊ฐœ) | | ํ‰๊ฐ€ ์ง€ํ‘œ | Top-1 error, Top-5 error | | ์ œ์ถœ | ์ผ๋ถ€ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ILSVRC-2014 ๊ณต์‹ ์ œ์ถœ |

4.1. SINGLE SCALE EVALUATION

VCG Single Scale Results

  • ๋‹จ์ผ ์Šค์ผ€์ผ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ๊นŠ์ด๊ฐ€ ๊นŠ์„์ˆ˜๋ก ์—๋Ÿฌ์œจ ๊ฐ์†Œ ํšจ๊ณผ๊ฐ€ ํ™•์ธ
  • ํ•˜์ง€๋งŒ ๋‹จ์ˆœํžˆ ๋น„์„ ํ˜•์„ฑ๋งŒ ๋Š˜๋ฆฐ 1ร—1 conv ๊ตฌ์„ฑ(C)์€ 3ร—3 conv๋ฅผ ์Œ“์€ ๊ตฌ์„ฑ(D)๋ณด๋‹ค ์„ฑ๋Šฅ ํ•˜๋ฝ
  • scale jittering**์ด ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž„์„ ์‹คํ—˜์œผ๋กœ ์ž…์ฆ

    ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€“ | | LRN ํšจ๊ณผ | ์„ฑ๋Šฅ ๊ฐœ์„  ์—†์Œ, ์˜คํžˆ๋ ค ๋ถˆํ•„์š” | | ๊นŠ์ด ์ฆ๊ฐ€ ํšจ๊ณผ | 11์ธต(A) โ†’ 19์ธต(E)๋กœ ๊ฐˆ์ˆ˜๋ก ์˜ค๋ฅ˜์œจ ๊ฐ์†Œ | | C vs D ๋น„๊ต | 1ร—1 conv๋งŒ ์ถ”๊ฐ€(C)๋ณด๋‹ค 3ร—3 conv(D)๊ฐ€ ์šฐ์ˆ˜ | | ์–•์€ vs ๊นŠ์€ | ๊นŠ๊ณ  ์ž‘์€ ํ•„ํ„ฐ > ์–•๊ณ  ํฐ ํ•„ํ„ฐ (์„ฑ๋Šฅ 7% ์ฐจ์ด) | | ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• | Scale jittering์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํฐ ๊ธฐ์—ฌ |

4.2. MULTI-SCALE EVALUATION

VGG Multi-Scale Results

  • ์ด ์ ˆ์€ ํ…Œ์ŠคํŠธ ์‹œ scale jittering
  • ํ•™์Šต ์Šค์ผ€์ผ ๊ทผ์ฒ˜์˜ ์—ฌ๋Ÿฌ Q๋กœ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜, ํ•™์Šต ์ž์ฒด๋ฅผ jittering์œผ๋กœ ํ–ˆ์„ ๊ฒฝ์šฐ ๋” ๋„“์€ ๋ฒ”์œ„์—์„œ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ๊ฐ€์žฅ ๊นŠ์€ ๋ชจ๋ธ(D, E)์ด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋ฉฐ, ๋‹จ์ผ ๋„คํŠธ์›Œํฌ ๊ธฐ์ค€์œผ๋กœ 24.8%/7.5% (top-1/top-5)๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ๋Š” E๊ฐ€ 7.3% top-5 ์—๋Ÿฌ๋ฅผ ๊ธฐ๋ก

    ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”- | | ํ…Œ์ŠคํŠธ jittering | ์—ฌ๋Ÿฌ Q์—์„œ ํ‰๊ฐ€ ํ›„ posterior ํ‰๊ท  | | ๊ณ ์ • S ๋ชจ๋ธ ํ‰๊ฐ€ | Q = {Sโˆ’32, S, S+32} | | jittered S ๋ชจ๋ธ ํ‰๊ฐ€ | Q = {S_min, 0.5(S_min+S_max), S_max} | | ์ตœ๊ณ  ์„ฑ๋Šฅ | ๋‹จ์ผ ๋ชจ๋ธ, Val: 24.8% top-1 / 7.5% top-5 | | Test ์„ฑ๋Šฅ | Net-E, top-5 error 7.3% |

4.3 MULTI-CROP EVALUATION

VGG Multi-Crop Results

  • multi-crop ํ‰๊ฐ€๊ฐ€ dense ํ‰๊ฐ€๋ณด๋‹ค ์•ฝ๊ฐ„ ๋‚ซ์ง€๋งŒ, ๋‘ ๋ฐฉ์‹์„ ๊ฒฐํ•ฉํ•˜๋ฉด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. ์ด๋Š” ๊ฒฝ๊ณ„ ์กฐ๊ฑด ์ฐจ์ด ๋•Œ๋ฌธ์œผ๋กœ, crop ๊ธฐ๋ฐ˜์€ 0 ํŒจ๋”ฉ์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ dense๋Š” ์ฃผ๋ณ€ ํ”ฝ์…€ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด ๋” ๋„“์€ ๋ฌธ๋งฅ์„ ๋ฐ˜์˜ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์„œ๋กœ ๋ณด์™„์ ์ด๋‹ค.

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€”โ€” | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”- | | Dense ํ‰๊ฐ€ | ์ „์ฒด ์ด๋ฏธ์ง€ ์ ์šฉ (ํšจ์œจ์ ) | | Multi-crop ํ‰๊ฐ€ | ์—ฌ๋Ÿฌ crop ํ‰๊ฐ€ (์ •ํ™•๋„ โ†‘, ๊ณ„์‚ฐ๋Ÿ‰ โ†‘) | | ๊ฒฐํ•ฉ ํšจ๊ณผ | Dense + Multi-crop > ๊ฐ๊ฐ ๋‹จ๋… ์‚ฌ์šฉ | | ์›์ธ ์ถ”์ • | ํ•ฉ์„ฑ๊ณฑ ๊ฒฝ๊ณ„ ์กฐ๊ฑด ์ฐจ์ด (zero padding vs ์ฃผ๋ณ€ ์ •๋ณด) |

4.4 CONVNET FUSION

VGG ConvNet Fusion Results

  • ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ๊ฒฐํ•ฉ(์•™์ƒ๋ธ”)ํ•˜๋ฉด ์„ฑ๋Šฅ ๊ฐœ์„ 
  • VGGNet์€ ์ดˆ๊ธฐ 7๊ฐœ ๋„คํŠธ์›Œํฌ ์•™์ƒ๋ธ”๋กœ 7.3% ์—๋Ÿฌ๋ฅผ ๊ธฐ๋กํ–ˆ์œผ๋‚˜, ์ดํ›„ ๋‹จ ๋‘ ๋ชจ๋ธ(D+E) ์•™์ƒ๋ธ”๋กœ๋„ ๋” ๋‚ฎ์€ 6.8% ์—๋Ÿฌ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋ชจ๋ธ ๊ฐ„ ๋ณด์™„์„ฑ์ด ํฌ๋ฉฐ, ๋‹ค์ˆ˜์˜ ๋ชจ๋ธ์ด ๊ผญ ํ•„์š”ํ•˜์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์คŒ

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€” | | ๋ฐฉ๋ฒ• | ์—ฌ๋Ÿฌ ๋ชจ๋ธ soft-max posterior ํ‰๊ท  | | ์ดˆ๊ธฐ ์•™์ƒ๋ธ” | 7๊ฐœ ๋ชจ๋ธ (๋‹จ์ผยทmulti-scale ํ˜ผํ•ฉ), 7.3% error | | ๊ฐœ์„ ๋œ ์•™์ƒ๋ธ” | 2๊ฐœ ๋ชจ๋ธ (D+E), dense: 7.0%, dense+multi-crop: 6.8% | | ๋‹จ์ผ ๋ชจ๋ธ ์„ฑ๋Šฅ | ๋ชจ๋ธ E, 7.1% error | | ์˜๋ฏธ | ์•™์ƒ๋ธ” ๋ณด์™„์„ฑ, ์ ์€ ๋ชจ๋ธ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ ๊ฐ€๋Šฅ |

4.5 Comparison with the State of the Art

VGG State-of-the-Art Comparison โ€”

๐Ÿ“š A. Localisation

๋ฒˆ์—ญ

1

๊ฐ์ฒด ์œ„์น˜ ์ถ”์ •์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋งˆ์ง€๋ง‰ ์™„์ „์—ฐ๊ฒฐ ์ธต์ด ํด๋ž˜์Šค ์ ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ ๊ฒฝ๊ณ„ ์ƒ์ž(bounding box) ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋งค์šฐ ๊นŠ์€ ConvNet์„ ์‚ฌ์šฉํ•œ๋‹ค. ๊ฒฝ๊ณ„ ์ƒ์ž๋Š” ์ค‘์‹ฌ ์ขŒํ‘œ, ๋„ˆ๋น„, ๋†’์ด๋ฅผ ์ €์žฅํ•˜๋Š” 4์ฐจ์› ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋œ๋‹ค. ๊ฒฝ๊ณ„ ์ƒ์ž ์˜ˆ์ธก์€ ๋ชจ๋“  ํด๋ž˜์Šค์— ๋Œ€ํ•ด ๊ณต์œ ๋  ์ˆ˜๋„(single-class regression, SCR (Sermanet et al., 2014)), ํด๋ž˜์Šค๋ณ„๋กœ ๊ฐœ๋ณ„์ ์ผ ์ˆ˜๋„ ์žˆ๋‹ค(per-class regression, PCR). ์ „์ž์˜ ๊ฒฝ์šฐ ๋งˆ์ง€๋ง‰ ์ธต์€ 4์ฐจ์›์ด๊ณ , ํ›„์ž์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ์…‹์— 1000 ํด๋ž˜์Šค๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ 4000์ฐจ์›์ด ๋œ๋‹ค. ๋งˆ์ง€๋ง‰ ๊ฒฝ๊ณ„ ์ƒ์ž ์˜ˆ์ธก ์ธต์„ ์ œ์™ธํ•˜๋ฉด, ๋ถ„๋ฅ˜ ๊ณผ์ œ์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ ConvNet ์•„ํ‚คํ…์ฒ˜ D(ํ‘œ 1, 16๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ์ธต)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

ํ›ˆ๋ จ. localisation ConvNet ํ›ˆ๋ จ์€ ๋ถ„๋ฅ˜ ConvNet ํ›ˆ๋ จ(3.1์ ˆ)๊ณผ ์œ ์‚ฌํ•˜๋‹ค. ์ฃผ์š” ์ฐจ์ด๋Š” ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ชฉ์ ํ•จ์ˆ˜ ๋Œ€์‹  ์œ ํด๋ฆฌ๋“œ ์†์‹ค(Euclidean loss)์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก๋œ ๊ฒฝ๊ณ„ ์ƒ์ž ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ์ •๋‹ต์˜ ์ฐจ์ด๋ฅผ ๋ฒŒ์ ํ™”ํ•œ๋‹ค๋Š” ์ ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐœ์˜ localisation ๋ชจ๋ธ์„ ๋‹จ์ผ ์Šค์ผ€์ผ(S=256, S=384)์—์„œ ๊ฐ๊ฐ ํ•™์Šตํ–ˆ๋‹ค(์‹œ๊ฐ„ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ILSVRC-2014 ์ œ์ถœ์—์„œ๋Š” scale jittering์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ). ํ›ˆ๋ จ์€ ๋™์ผํ•œ ์Šค์ผ€์ผ์—์„œ ํ•™์Šต๋œ ๋ถ„๋ฅ˜ ๋ชจ๋ธ๋กœ ์ดˆ๊ธฐํ™”๋˜์—ˆ์œผ๋ฉฐ, ์ดˆ๊ธฐ ํ•™์Šต๋ฅ ์€ 10^โˆ’3์œผ๋กœ ์„ค์ •ํ–ˆ๋‹ค. ๋˜ํ•œ Sermanet et al. (2014)์ฒ˜๋Ÿผ ๋ชจ๋“  ์ธต์„ fine-tuningํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์ฒซ ๋‘ ๊ฐœ FC ์ธต๋งŒ fine-tuningํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ชจ๋‘ ํƒ์ƒ‰ํ–ˆ๋‹ค. ๋งˆ์ง€๋ง‰ FC ์ธต์€ ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ–ˆ๋‹ค.

ํ…Œ์ŠคํŠธ. ๋‘ ๊ฐ€์ง€ ํ…Œ์ŠคํŠธ ํ”„๋กœํ† ์ฝœ์„ ๊ณ ๋ คํ–ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ๊ฒ€์ฆ ์„ธํŠธ์—์„œ ๋„คํŠธ์›Œํฌ ์ˆ˜์ •์˜ ํšจ๊ณผ๋ฅผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์œผ๋กœ, ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜๋ฅผ ๋ฐฐ์ œํ•˜๊ธฐ ์œ„ํ•ด ์ •๋‹ต ํด๋ž˜์Šค์— ๋Œ€ํ•ด์„œ๋งŒ ๊ฒฝ๊ณ„ ์ƒ์ž๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ์ด๋•Œ ๊ฒฝ๊ณ„ ์ƒ์ž๋Š” ์ด๋ฏธ์ง€ ์ค‘์•™ crop์— ๋„คํŠธ์›Œํฌ๋ฅผ ์ ์šฉํ•ด ์–ป๋Š”๋‹ค.

๋‘ ๋ฒˆ์งธ, ์™„์ „ํ•œ ํ…Œ์ŠคํŠธ ์ ˆ์ฐจ๋Š” ๋ถ„๋ฅ˜ ๊ณผ์ œ(3.2์ ˆ)์™€ ์œ ์‚ฌํ•˜๊ฒŒ localisation ConvNet์„ ์ด๋ฏธ์ง€ ์ „์ฒด์— ์กฐ๋ฐ€ํ•˜๊ฒŒ ์ ์šฉํ•œ๋‹ค. ์ฐจ์ด์ ์€ ๋งˆ์ง€๋ง‰ FC ์ธต ์ถœ๋ ฅ์ด ํด๋ž˜์Šค ์ ์ˆ˜ ๋งต์ด ์•„๋‹ˆ๋ผ ๊ฒฝ๊ณ„ ์ƒ์ž ์˜ˆ์ธก ์ง‘ํ•ฉ์ด๋ผ๋Š” ์ ์ด๋‹ค. ์ตœ์ข… ์˜ˆ์ธก์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” Sermanet et al. (2014)์˜ greedy ๋ณ‘ํ•ฉ ์ ˆ์ฐจ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ด๋Š” ๋จผ์ € ๊ณต๊ฐ„์ ์œผ๋กœ ๊ฐ€๊นŒ์šด ์˜ˆ์ธก๋“ค์„ ๋ณ‘ํ•ฉ(์ขŒํ‘œ ํ‰๊ท )ํ•˜๊ณ , ์ดํ›„ ๋ถ„๋ฅ˜ ConvNet์—์„œ ์–ป์€ ํด๋ž˜์Šค ์ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋žญํ‚น์„ ๋งค๊ธด๋‹ค. ์—ฌ๋Ÿฌ localisation ConvNet์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ๋จผ์ € ๊ฐ ConvNet์˜ ์˜ˆ์ธก์„ ํ•ฉ์ณ(union) ๋ณ‘ํ•ฉ ์ ˆ์ฐจ๋ฅผ ์ ์šฉํ–ˆ๋‹ค. Sermanet et al. (2014)์˜ multiple pooling offsets ๊ธฐ๋ฒ•(๊ฒฝ๊ณ„ ์ƒ์ž ์˜ˆ์ธก์˜ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•)์€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค.

2

์ด๋ฒˆ ์ ˆ์—์„œ๋Š” ๋จผ์ € ์ฒซ ๋ฒˆ์งธ ํ…Œ์ŠคํŠธ ํ”„๋กœํ† ์ฝœ์„ ์ด์šฉํ•ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ localisation ์„ค์ •์„ ๊ฒฐ์ •ํ•˜๊ณ , ์ดํ›„ ๋‘ ๋ฒˆ์งธ ํ”„๋กœํ† ์ฝœ์„ ์‚ฌ์šฉํ•œ ์™„์ „ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ด๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. localisation ์˜ค๋ฅ˜๋Š” ILSVRC ๊ธฐ์ค€(Russakovsky et al., 2014)์— ๋”ฐ๋ผ ์ธก์ •๋˜๋ฉฐ, ์˜ˆ์ธก๋œ ๊ฒฝ๊ณ„ ์ƒ์ž๊ฐ€ ์ •๋‹ต ๊ฒฝ๊ณ„ ์ƒ์ž์™€์˜ ๊ต์ง‘ํ•ฉ-ํ•ฉ์ง‘ํ•ฉ ๋น„์œจ(IoU)์ด 0.5 ์ด์ƒ์ผ ๋•Œ ์ •๋‹ต์œผ๋กœ ๊ฐ„์ฃผ๋œ๋‹ค. ์„ค์ • ๋น„๊ต. ํ‘œ 8์—์„œ ๋ณด๋“ฏ์ด, per-class regression (PCR)์ด ํด๋ž˜์Šค ๋น„ํŠน์ •(single-class) ํšŒ๊ท€(SCR)๋ณด๋‹ค ์šฐ์ˆ˜ํ•˜๋‹ค. ์ด๋Š” PCR์ด SCR๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋˜ Sermanet et al. (2014)์˜ ๊ฒฐ๊ณผ์™€๋Š” ๋‹ค๋ฅด๋‹ค. ๋˜ํ•œ localisation ๊ณผ์ œ์—์„œ ๋ชจ๋“  ์ธต์„ fine-tuningํ•˜๋Š” ๊ฒƒ์ด, Sermanet et al. (2014)์ฒ˜๋Ÿผ FC ์ธต๋งŒ fine-tuningํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋ˆˆ์— ๋„๊ฒŒ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋‹ค. ์ด ์‹คํ—˜์—์„œ๋Š” ์ตœ์†Œ ์ด๋ฏธ์ง€ ๋ณ€์„ S=384๋กœ ์„ค์ •ํ–ˆ๋‹ค. S=256์˜ ๊ฒฐ๊ณผ๋„ ๋™์ผํ•œ ๊ฒฝํ–ฅ์„ ๋ณด์˜€์œผ๋‚˜, ๊ฐ„๊ฒฐ์„ฑ์„ ์œ„ํ•ด ์ƒ๋žตํ•œ๋‹ค.

์™„์ „ํ•œ ํ‰๊ฐ€. ์ตœ์ ์˜ ์„ค์ •(PCR, ๋ชจ๋“  ์ธต fine-tuning)์„ ์ฐพ์€ ํ›„, ์ด๋ฅผ ์™„์ „ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ์šฉํ–ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” 4.5์ ˆ์˜ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•ด top-5 ํด๋ž˜์Šค ๋ผ๋ฒจ์„ ์˜ˆ์ธกํ•˜๊ณ , ์—ฌ๋Ÿฌ ์กฐ๋ฐ€ํ•˜๊ฒŒ ๊ณ„์‚ฐ๋œ bounding box ์˜ˆ์ธก๋“ค์„ Sermanet et al. (2014)์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ณ‘ํ•ฉํ•œ๋‹ค. ํ‘œ 9์—์„œ ๋ณด๋“ฏ์ด, localisation ConvNet์„ ์ „์ฒด ์ด๋ฏธ์ง€์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ค‘์•™ crop๋งŒ ์‚ฌ์šฉํ•œ ๊ฒƒ(ํ‘œ 8)๋ณด๋‹ค ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•œ๋‹ค. ์ด๋Š” ์ •๋‹ต ๋ผ๋ฒจ์ด ์•„๋‹Œ ์˜ˆ์ธก๋œ top-5 ๋ผ๋ฒจ์„ ์‚ฌ์šฉํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ทธ๋ ‡๋‹ค. ๋ถ„๋ฅ˜ ๊ณผ์ œ(4์ ˆ)์™€ ์œ ์‚ฌํ•˜๊ฒŒ, ์—ฌ๋Ÿฌ ์Šค์ผ€์ผ์—์„œ ํ…Œ์ŠคํŠธํ•˜๊ณ  ๋‹ค์ˆ˜ ๋„คํŠธ์›Œํฌ์˜ ์˜ˆ์ธก์„ ๊ฒฐํ•ฉํ•˜๋ฉด ์„ฑ๋Šฅ์ด ์ถ”๊ฐ€๋กœ ํ–ฅ์ƒ๋œ๋‹ค.

์ตœ์ฒจ๋‹จ๊ณผ์˜ ๋น„๊ต. ์šฐ๋ฆฌ์˜ ์ตœ๊ณ  localisation ๊ฒฐ๊ณผ๋ฅผ ํ‘œ 10์—์„œ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ๊ณผ ๋น„๊ตํ–ˆ๋‹ค. ํ…Œ์ŠคํŠธ ์—๋Ÿฌ 25.3%๋กœ, โ€œVGGโ€ ํŒ€์€ ILSVRC-2014 localisation ๊ณผ์ œ์—์„œ ์šฐ์Šนํ–ˆ๋‹ค(Russakovsky et al., 2014). ์ฃผ๋ชฉํ•  ์ ์€, ์šฐ๋ฆฌ๋Š” Overfeat (Sermanet et al., 2014, ILSVRC-2013 ์šฐ์Šน)๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋Š”๋ฐ, ๋” ์ ์€ ์Šค์ผ€์ผ์„ ์‚ฌ์šฉํ–ˆ๊ณ  ๊ทธ๋“ค์˜ ํ•ด์ƒ๋„ ํ–ฅ์ƒ ๊ธฐ๋ฒ•(resolution enhancement)๋„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ทธ๋ ‡๋‹ค. ๋งŒ์•ฝ ์ด ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•œ๋‹ค๋ฉด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด๋Š” ๋งค์šฐ ๊นŠ์€ ConvNet์ด ๊ฐ€์ ธ์˜จ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค โ€” ๋” ๋‹จ์ˆœํ•œ localisation ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์Œ์—๋„ ๋” ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„ ๋•๋ถ„์— ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

๋‚ด์šฉ

1

  • ๋งˆ์ง€๋ง‰ clf.๊ฐ€ ํด๋ž˜์Šค ์ ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ, bounding box๋ฅผ ์˜ˆ์ธกํ•˜๋Š” convnet์„ ์‚ฌ์šฉ
    • bounding box : ์ค‘์‹ฌ ์ขŒํ‘œ, ๋„ˆ๋น„, ๋†’์ด๋ฅผ ์ €์žฅํ•˜๋Š” 4์ฐจ์› vec.
    • ๊ฒฝ๊ณ„์ƒ์ž ์˜ˆ์ธก์€ ๊ณต์œ ๋ ์ˆ˜๋„, ํด๋ž˜์Šค๋ณ„๋กœ ๊ฐœ๋ณ„์ ์ผ ์ˆ˜๋„ ์žˆ๋‹ค.
      • Signle-class reg., SCR : ๋งˆ์ง€๋ง‰์ธต 4์ฐจ์›
      • per-class reg., PCR : ๋งˆ์ง€๋ง‰์ธต 4์ฐจ์› x 1000ํด๋ž˜์Šค
  • Loss์˜ ๋ณ€๊ฒฝ : Logistic reg.์—์„œ L2 loss์œผ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ, ๊ฒฝ๊ณ„์ƒ์ž์˜ ์˜ˆ์ธก๊ณผ ์ •๋‹ต์„ ๋ฒŒ์ ํ™” ์ง„ํ–‰
  • ๋‘ ์Šค์ผ€์ผ์— ๋Œ€ํ•˜์—ฌ ํ•™์Šต
  • ํ…Œ์ŠคํŠธ์‹œ ์ตœ์ข… ์˜ˆ์ธก์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” Sermanet et al. (2014)์˜ greedy ๋ณ‘ํ•ฉ ์ ˆ์ฐจ๋ฅผ ์‚ฌ์šฉ
    • ๊ณต๊ฐ„์ ์œผ๋กœ ๊ฐ€๊นŒ์šด ์˜ˆ์ธก๋“ค์„ ๋ณ‘ํ•ฉ(์ขŒํ‘œ ํ‰๊ท )ํ•˜๊ณ , ์ดํ›„ ๋ถ„๋ฅ˜ ConvNet์—์„œ ์–ป์€ ํด๋ž˜์Šค ์ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋žญํ‚น์„ ๋งค๊ธด๋‹ค

ํฌ์ธํŠธ

| ํ•ญ๋ชฉ | ๋‚ด์šฉ | | โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€” | | ๊ณผ์ œ | ILSVRC 2014 localisation (25.3% error, ์šฐ์Šน) | | ์•„ํ‚คํ…์ฒ˜ | ConvNet-D (16์ธต), ๋งˆ์ง€๋ง‰ ์ธต โ†’ bounding box ์˜ˆ์ธก | | ๋ ˆ์ด๋ธ” ๋ฐฉ์‹ | SCR (๊ณต์œ , 4D) vs PCR (ํด๋ž˜์Šค๋ณ„, 4000D) | | ์†์‹ค ํ•จ์ˆ˜ | Euclidean loss | | ์ดˆ๊ธฐํ™” | ๋ถ„๋ฅ˜ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜ ์žฌ์‚ฌ์šฉ, ๋งˆ์ง€๋ง‰ FC ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™” | | ํ…Œ์ŠคํŠธ ๋ฐฉ์‹ | โ‘  GT ํด๋ž˜์Šค ์ค‘์•™ crop, โ‘ก Dense + greedy merging |

2

  • ์ตœ์  ์„ค์ •(PCR + all layers fine-tuning)
  • ๊นŠ์€ ๋„คํŠธ์›Œํฌ ์ž์ฒด๊ฐ€ ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„๋ ฅ

ํฌ์ธํŠธ

ํ•ญ๋ชฉ๋‚ด์šฉ
ํ‰๊ฐ€ ๊ธฐ์ค€IoU โ‰ฅ 0.5 (ILSVRC)
์„ค์ • ๋น„๊ตPCR > SCR, All layers fine-tuning > FC-only
์ตœ์  ์„ค์ •PCR + ๋ชจ๋“  ์ธต fine-tuning
์ „์ฒด ํ‰๊ฐ€Dense ์ ์šฉ + greedy merging + multi-scale
์ตœ์ข… ์„ฑ๊ณผ25.3% error, ILSVRC 2014 localisation ์šฐ์Šน
๋น„๊ตVGG > OverFeat (๋” ๋‹จ์ˆœ ๋ฐฉ๋ฒ•์œผ๋กœ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ)

๐Ÿ“š B. Generalisation of Very Deep Features

๋ฒˆ์—ญ

์•ž ์ ˆ๋“ค์—์„œ๋Š” ILSVRC ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋งค์šฐ ๊นŠ์€ ConvNet์˜ ํ•™์Šต๊ณผ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์—ˆ๋‹ค. ์ด๋ฒˆ ์ ˆ์—์„œ๋Š” ILSVRC์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ ConvNet์„ ๋‹ค๋ฅธ ๋” ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์˜ ํŠน์ง• ์ถ”์ถœ๊ธฐ(feature extractor)๋กœ ํ‰๊ฐ€ํ•œ๋‹ค. ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๊ณผ์ ํ•ฉ(over-fitting) ๋ฌธ์ œ๋กœ ์ธํ•ด ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ตœ๊ทผ ์ด๋Ÿฌํ•œ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋Œ€ํ•œ ๊ด€์‹ฌ์ด ์ปค์กŒ๋Š”๋ฐ(Zeiler & Fergus,![[Obsidian Vault ๊ฐ€์ƒ๋ณธ]] 2013; Donahue et al., 2013; Razavian et al., 2014; Chatfield et al., 2014), ILSVRC์—์„œ ํ•™์Šต๋œ ์‹ฌ์ธต ์ด๋ฏธ์ง€ ํ‘œํ˜„์ด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์—๋„ ์ž˜ ์ผ๋ฐ˜ํ™”๋˜๋ฉฐ, ์ˆ˜์ž‘์—…์œผ๋กœ ์„ค๊ณ„๋œ ํ‘œํ˜„(hand-crafted representations)์„ ํฐ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ๋ฐํ˜€์กŒ๋‹ค. ์ด ์—ฐ๊ตฌ ํ๋ฆ„์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ์ด ๊ธฐ์กด state-of-the-art ๋ฐฉ๋ฒ•์—์„œ ์‚ฌ์šฉ๋œ ์–•์€ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š”์ง€๋ฅผ ์กฐ์‚ฌํ•œ๋‹ค. ์ด ํ‰๊ฐ€์—์„œ๋Š” ILSVRC์—์„œ ๊ฐ€์žฅ ์ข‹์€ ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ์„ ๋‚ธ ๋‘ ๋ชจ๋ธ(4์žฅ์—์„œ ์„ค๋ช…) โ€” ๊ตฌ์„ฑ โ€œNet-Dโ€์™€ โ€œNet-Eโ€๋ฅผ ๊ณ ๋ คํ•œ๋‹ค(์ด ๋‘ ๋ชจ๋ธ์€ ๊ณต๊ฐœ๋จ). ILSVRC์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ ConvNet์„ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์˜ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์— ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด, ๋งˆ์ง€๋ง‰ FC ์ธต(1000-way ILSVRC ๋ถ„๋ฅ˜ ์ˆ˜ํ–‰)์„ ์ œ๊ฑฐํ•˜๊ณ ,ๅ€’์ˆ˜ ๋‘ ๋ฒˆ์งธ ์ธต์˜ 4096์ฐจ์› ํ™œ์„ฑ๊ฐ’์„ ์ด๋ฏธ์ง€ ํŠน์ง•์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ํŠน์ง•์€ ์—ฌ๋Ÿฌ ์œ„์น˜์™€ ์Šค์ผ€์ผ์—์„œ ์ง‘๊ณ„๋˜๋ฉฐ, L2 ์ •๊ทœํ™” ํ›„ ๋Œ€์ƒ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•™์Šต๋œ ์„ ํ˜• SVM ๋ถ„๋ฅ˜๊ธฐ์— ์ž…๋ ฅ๋œ๋‹ค. ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด, ์‚ฌ์ „ ํ•™์Šต๋œ ConvNet ๊ฐ€์ค‘์น˜๋Š” ๊ณ ์ •๋˜๋ฉฐ(fine-tuning ์—†์Œ), ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค.

ํŠน์ง• ์ง‘๊ณ„๋Š” ILSVRC ํ‰๊ฐ€ ์ ˆ์ฐจ(3.2์ ˆ)์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ˆ˜ํ–‰๋œ๋‹ค. ์ฆ‰, ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€์žฅ ์งง์€ ๋ณ€์ด Q๊ฐ€ ๋˜๋„๋ก ๋ฆฌ์Šค์ผ€์ผํ•œ ๋’ค, ๋„คํŠธ์›Œํฌ๋ฅผ ์ด๋ฏธ์ง€ ํ‰๋ฉด ์ „์ฒด์— ์กฐ๋ฐ€ํ•˜๊ฒŒ ์ ์šฉํ•œ๋‹ค(๋ชจ๋“  ๊ฐ€์ค‘์น˜ ์ธต์„ ํ•ฉ์„ฑ๊ณฑ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ฐ€๋Šฅํ•˜๋‹ค). ์ดํ›„ ๊ฒฐ๊ณผ feature map์— ๋Œ€ํ•ด ์ „์—ญ ํ‰๊ท  ํ’€๋ง(global average pooling)์„ ์ˆ˜ํ–‰ํ•ด 4096์ฐจ์› ์ด๋ฏธ์ง€ ๊ธฐ์ˆ ์ž๋ฅผ ์–ป๋Š”๋‹ค. ์ด ๊ธฐ์ˆ ์ž๋Š” ์ขŒ์šฐ ๋ฐ˜์ „๋œ ์ด๋ฏธ์ง€์˜ ๊ธฐ์ˆ ์ž์™€ ํ‰๊ท ๋œ๋‹ค. 4.2์ ˆ์—์„œ ๋ณด์˜€๋“ฏ, ๋‹ค์ค‘ ์Šค์ผ€์ผ ํ‰๊ฐ€๊ฐ€ ์œ ๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์—ฌ๋Ÿฌ Q์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋กœ ์–ป์–ด์ง„ multi-scale ํŠน์ง•์€ ์Šค์ผ€์ผ ๊ฐ„์— ์Œ“๊ฑฐ๋‚˜(stack) ํ‰๊ท ํ•  ์ˆ˜ ์žˆ๋‹ค. stacking์€ ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ์ด๋ฏธ์ง€ ํ†ต๊ณ„๋ฅผ ์ตœ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋„๋ก ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์ง€๋งŒ, ๊ธฐ์ˆ ์ž์˜ ์ฐจ์›์ด ์ฆ๊ฐ€ํ•˜๋Š” ๋น„์šฉ์ด ๋”ฐ๋ฅธ๋‹ค. ์•„๋ž˜ ์‹คํ—˜์—์„œ ์ด ์„ค๊ณ„ ์„ ํƒ์„ ๋‹ค์‹œ ๋…ผ์˜ํ•œ๋‹ค. ๋˜ํ•œ ๋‘ ๋„คํŠธ์›Œํฌ(Net-D, Net-E)๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๊ฐ๊ฐ์˜ ๊ธฐ์ˆ ์ž๋ฅผ ์Œ“์•„ late fusion์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ๋„ ํ‰๊ฐ€ํ–ˆ๋‹ค.

๋‚ด์šฉ

๋งˆ์ง€๋ง‰ 1000-way FC๋Š” ์ œ๊ฑฐํ•˜๊ณ  4096์ฐจ์› ๋ฒกํ„ฐ๋ฅผ ํ™œ์šฉํ–ˆ๋‹ค. ๋‹ค์ค‘ ์Šค์ผ€์ผ ํŠน์ง•์€ ํ‰๊ท (pooling)ํ•˜๊ฑฐ๋‚˜ ์Œ“๊ธฐ(stacking)๋กœ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‘ ๋„คํŠธ์›Œํฌ ํŠน์ง•๋„ late fusion์ด ๊ฐ€๋Šฅํ•˜๋‹ค. Fine-tuning์€ ํ•˜์ง€ ์•Š์•˜๋‹ค.

ํฌ์ธํŠธ

ํ•ญ๋ชฉ๋‚ด์šฉ
๋Œ€์ƒ ๋ฌธ์ œ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ ํ™œ์šฉ
์‚ฌ์šฉ ๋ชจ๋ธNet-D (16์ธต), Net-E (19์ธต), ILSVRC ์‚ฌ์ „ ํ•™์Šต
ํŠน์ง• ์ถ”์ถœFC-4096 ์ฐจ์› ๋ฒกํ„ฐ, ๋งˆ์ง€๋ง‰ FC ์ œ๊ฑฐ
๋ถ„๋ฅ˜๊ธฐLinear SVM
์Šค์ผ€์ผ ์ฒ˜๋ฆฌMulti-scale Q, pooling vs stacking
๊ฒฐํ•ฉ ๋ฐฉ์‹Net-D & Net-E late fusion (descriptor stacking)
This post is licensed under CC BY 4.0 by the author.