ํด๋ฆฝ๋ณด๋“œ์— ๋ณต์‚ฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค
Post

Chronos - Learning the Language of Time Series

Chronos - Learning the Language of Time Series

๐Ÿ”— ์ถœ์ฒ˜

https://arxiv.org/abs/2403.07815


๐Ÿ—“๏ธ ์š”์•ฝ

๐Ÿ“Œ 3์ค„ ์š”์•ฝ

  1. ์‹œ๊ณ„์—ด ๊ฐ’์„ ์Šค์ผ€์ผ๋ง ๋ฐ ์–‘์žํ™”ํ•˜์—ฌ ๊ณ ์ •๋œ ์–ดํœ˜๋กœ ํ† ํฐํ™”ํ•˜๊ณ , ๊ธฐ์กด Transformer ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ตœ์†Œํ•œ์˜ ์ˆ˜์ •๋งŒ์œผ๋กœ ์ด ํ† ํฐํ™”๋œ ์‹œ๊ณ„์—ด์— ๋Œ€ํ•ด CE๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต์‹œํ‚ค๋Š” pretrained ๋ชจ๋ธ
  2. ๊ณต๊ฐœ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹๊ณผ, Gaussian Process๊ธฐ๋ฐ˜์˜ ํ•ฉ์ฒญ ๋ฐ์ดํ„ฐ์…‹(KernelSYnth), TSMixup์ฆ๊ฐ•์œผ๋กœ ์‚ฌ์ „ํ•™์Šต, TS์˜ ํŠน์ง•์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , autogressive sampling์„ ํ†ตํ•ด ํ™•๋ฅ ์  ์˜ˆ์ธก์„ ์ˆ˜ํ–‰
  3. Chronos๋Š” ์„ฑ๋Šฅ์ด ์ž˜ ๋‚˜์˜ค๊ณ , zero-shot์— ํŠนํ™”๋จ

๐Ÿ“์š”์•ฝ

โ€œTSโ€๋ฐ์ดํ„ฐ๋ฅผ ์–ธ์–ด ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” โ€œ์–ธ์–ดโ€๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ๊ธฐ์กด์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ LM ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์— ์ ์šฉ

1. ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ํ† ํฐํ™”, ์–ธ์–ด ๋ชจ๋ธ ์žฌํ™œ์šฉ

1.1. ์‹œ๊ณ„์—ด ํ† ํฐํ™”

์‹ค์ˆ˜ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์‹œ๊ณ„์—ด์„ ์œ ํ•œํ•œ ์–ดํœ˜์˜ ์ด์‚ฐ์ ์ธ ํ† ํฐ์œผ๋กœ ๋งคํ•‘

  • Scaling : Mean Scailing ์‚ฌ์šฉ, ์‹œ๊ณ„์—ด์˜ ๊ฐ ์—”ํŠธ๋ฆฌ๋ฅผ context๋‚ด์˜ ์ ˆ๋Œ€๊ฐ’์˜ ํ‰๊ท ์œผ๋กœ ๋‚˜๋ˆ” $\tilde{x}i = (x_i - m) / s$ ์—ฌ๊ธฐ์„œ m=0 ์ด๊ณ , $s = C^{-1} \sum{j=1}^{C}x_j$ ์ž„. ์ด๋Š” ์‹œ๊ณ„์—ด์˜ 0์„ ๋ณดํ˜ธํ•˜๋Š” ์ด์ ์„ ๊ฐ€์ง
  • Quantization : ์Šค์ผ€์ผ๋ง๋œ ์‹ค์ˆ˜ ๊ฐ’ $\tilde{x}_i$์„ ์ด์‚ฐ์ ์ธ ํ† ํฐ ID๋กœ ๋ณ€ํ™˜ํ•จ. B๊ฐœ์˜ ์นธ(Bin) ์ค‘์‹ฌ $c_1 < \ldots < c_B$ ์™€ B-1๊ฐœ์˜ $b_i$๋ฅผ ์„ค์ •, \(q : \mathbb{R} \to \{1, 2, \dots, B\}\) \(q(x) = \begin{cases} 1, & \text{if } -\infty \le x < b_1, \\ 2, & \text{if } b_1 \le x < b_2, \\ \vdots & \\ B, & \text{if } b_{B-1} \le x < \infty. \end{cases}\)

ํ›ˆ๋ จ๋ฐ์ดํ„ฐ์—๋Œ€ํ•œ ์˜์กด์„ฑ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด [-15, +15]๊ตฌ๊ฐ„ ๋‚ด์—์„œ Uniform Binning์„ ์‚ฌ์šฉ. ๊ฐ’์ด 15๋ณด๋‹ค ํฌ๋ฉด ๋งˆ์ง€๋ง‰์นธ, -15๋ณด๋‹ค ์ž‘์œผ๋ฉด ์ฒซ๋ฒˆ์งธ ์นธ์œผ๋กœ ๋ณด๋ƒ„ ์‹œ๊ณ„์—ด ํ† ํฐ์ด์™ธ์— ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ํŠน์ˆ˜ํ† ํฐ PAD, EOSํ† ํฐ์„ ์–ดํœ˜์— ํฌํ•จํ•˜์—ฌ ์‹œ๊ณ„์—ด ์–ดํœ˜ ์ง‘ํ•ฉ $V_{ts}$๋ฅผ ๊ตฌ์„ฑ

1.2. ์–ธ์–ด ๋ชจ๋ธ

ํ† ํฐํ™”๋œ ์‹œ๊ณ„์—ด์„ ์ผ๋ฐ˜์ ์ธ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์— ์ž…๋ ฅ. Chronos๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋ธ์ธ T5๊ณ„์—ด์„ ์‚ฌ์šฉ, ๋””์ฝ”๋” only์ธ GPT-2์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์ž„ **๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋Š” ๋ณ€๊ฒจ์˜ค๋””์ง€ ์•Š์œผ๋ฉฐ, ๋‹จ์ง€ ์–‘์žํ™”ํ•˜๋Š” B๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ์–ดํœ˜ ํฌ๊ธฐ $|V_{ts}|$, ์ฆ‰ ์ž…๋ ฅ์ธต์˜ ํฌ๊ธฐ๋งŒ ์ˆ˜์ •ํ•˜๋ฉด ๋จ

1.3. ๋ชฉ์  ํ•จ์ˆ˜

\(\ell(\theta) = -\sum_{h=1}^{H+1} \sum_{i=1}^{|V_{ts}|} \mathbb{1}(z_{C+h+1}=i) \log p_\theta(z_{C+h+1}=i|z_{1:C+h})\) Cross-Entropy Loss ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•จ. ๋‹ค์ค‘ ๋ถ„๋ฅ˜๋ฌธ์ œ๋กœ ์ ‘๊ทผํ•˜์—ฌ, ๋‹ค์Œ ์ˆซ์ž๊ฐ€ ์–ด๋–ค ์นธ(Bin)์ธ์ง€ ๋งž์ถ”๋Š” ๋ฌธ์ œ๋กœ ์ ‘๊ทผ** ์†์‹ค ํ•จ์ˆ˜ ์ž์ฒด๊ฐ€ ์ˆซ์ž ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๊ทธ ์ž์ฒด๋ฅผ ์•Œ์ง€ ๋ชปํ•˜์ง€๋งŒ, ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์Šค์Šค๋กœ ํ•™์Šตํ•˜์—ฌ ์ธ์ ‘ํ•œ ์นธ๋“ค์€ ์„œ๋กœ ์—ฐ๊ด€๋˜์–ด ์žˆ๋‹ค๋ฅผ ํ•™์Šตํ•˜๋Š”๊ฒƒ์ด ๋ชฉ์ ์ž„

1.4. ์˜ˆ์ธก

๋‹ค์Œ์— ์˜ฌ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ํ† ํฐ์„ ์ž๊ท€ํšŒ๊ท€(Autogressive)๋กœ ํ•˜๋‚˜์”ฉ ๋ฝ‘์•„๋ƒ„

  • ํ™•๋ฅ ๋ก ์  ์˜ˆ์ธก : ๋”ฑ ํ•˜๋‚˜์˜ ๊ฐ’๋งŒ ๋‚ด๋†“๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ๋ฒˆ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๋ฏธ๋ž˜์˜ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ์„ ๊ทธ๋ ค๋ƒ„
  • ์—ญ๊ณผ์ • : ํ† ํฐ ์ƒ˜ํ”Œ๋ง โ†’ ์—ญ ์–‘์žํ™”(์นธ ์ค‘์‹ฌ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜) โ†’ ์—ญ์Šค์ผ€์ผ๋ง(์›๋ž˜ ๋‹จ์œ„๋กœ ๋ณต์›) ๊ณผ์ •์„ ๊ฑฐ์ณ, ์šฐ๋ฆฌ ๋ˆˆ์— ๋ณด์ด๋Š” ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋กœ ๋˜๋Œ๋ฆฐ๋‹ค.
  • 2. ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•

2.1. TSMixup ๐Ÿ“Œ

์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์— ์‚ฌ์šฉํ•˜๋Š” Mixup์˜ ์‹œ๊ณ„์—ด ๋ฒ„์ „. ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ๊ฐ€์ ธ์™€์„œ ๋ณผ๋ก ์กฐํ•ฉ(Convex Combination)์„ ๋งŒ๋“ฆ \(\tilde{x}_{1:l}^{\text{TSMixup}} = \sum_{i=1}^k \lambda_i \tilde{x}_{1:l}^{(i)}\)

  • e.g. โ€˜์ฃผ๊ฐ€ ๋ฐ์ดํ„ฐโ€™์™€ โ€˜์˜จ๋„ ๋ฐ์ดํ„ฐโ€™๋ฅผ ํŠน์ • ๋น„์œจ๋กœ ์„ž์–ด์„œ ์„ธ์ƒ์— ์—†๋Š” ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ์‹œ๊ณ„์—ด์„ ๋งŒ๋“ค์–ด ๋ชจ๋ธ์—๊ฒŒ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ, ๋ชจ๋ธ์ด ํŠน์ • ๋ฐ์ดํ„ฐ์—๋งŒ ๋งค๋ชฐ๋˜์ง€ ์•Š๊ณ  ๊ฐ•๊ฑดํ•˜๊ฒŒ ํ•™์Šต๋˜๋„๋ก ๋„์›€
  • ๊ณผ์ • : ๋ฌด์ž‘์œ„๋กœ K๊ฐœ์˜ ์‹œ๊ณ„์—ด(Uniform์—์„œ ์ถ”์ถœ)์„ ์„ ํƒ โ†’ ํ‰๊ท  ์Šค์ผ€์ผ๋งํ•œ ํ›„, $Dir({\alpha})$, ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ๊ฐ€์ค‘์น˜ $\lambda_i$ ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณผ๋ก ์กฐํ•ฉ์„ ์ƒ์„ฑ
2.2. KernelSynth

๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค(GP)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์•„์˜ˆ ๊ฐ€์งœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌดํ•œ์ • ์ƒ์‚ฐํ•œ๋‹ค.

  • ์ปค๋„ ๋ฑ…ํฌ : ์„ ํ˜•(์ถ”์„ธ), RBF(๋ถ€๋“œ๋Ÿฌ์šด ๋ณ€ํ™”), ์ฃผ๊ธฐ์„ฑ(๊ณ„์ ˆ์„ฑ)๋“ฑ์„ ๋‹ด๋‹นํ•˜๋Š” ์ˆ˜ํ•™์  ์ปค๋„๋“ค์„ ์ค€๋น„
  • ์กฐํ•ฉ : ์ด๋ฅผ ์กฐํ•ฉํ•˜์—ฌ ๋ณต์žกํ•œ ํŒจํ„ด์˜ โ€œDNAโ€๋ฅผ ๋งŒ๋“ฆ
  • ์ƒ˜ํ”Œ๋ง : ์ด DNA๋กœ ๋ถ€ํ„ฐ ์ˆ˜ํ•™์ ์œผ๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑ

3. ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ

3.1. ํ‰๊ฐ€ ์ง€ํ‘œ
  • WQL(Weighted Quantile Loss) : ์˜ˆ์ธก๊ฐ’์˜ ๋ถ„ํฌ๊ฐ€ ์‹ค์ œ ๊ฐ’์˜ ๋ถ„ํฌ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งž์ท„๋Š”์ง€(ํ™•๋ฅ ์  ์ •ํ™•๋„)๋ฅผ ์ธก์ •
  • MASE(Mean Absolute Scaled Error) : ์  ์˜ˆ์ธก์ด ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€๋ฅผ ์ธก์ •ํ•˜์—ฌ, ๋‹จ์ˆœ๋ชจ๋ธ ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ๋‚˜์€์ง€๋ฅผ ๋ณด์—ฌ์คŒ
3.2. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹
  • ๋ชจ๋ธ ํฌ๊ธฐ : ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ฆ๊ฐ€ํ•  ์ˆ˜๋ก ์„ฑ๋Šฅ ํ–ฅ์ƒ
  • ์ดˆ๊ธฐํ™” : LM ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”ํ•œ ๋ชจ๋ธ์€ ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ•œ ๋ชจ๋ธ์— ๋น„ํ•ด ์ˆ˜๋ ด๊ณผ loss๊ฐ€ ํผ. ๋”ฐ๋ผ์„œ ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”๊ฐ€ ๋” ๋‚˜์€ ์„ ํƒ
  • ์ฆ๊ฐ• : KernelSynth๋ฅผ ํ†ตํ•œ ํ•ฉ์„ฑ๋ฐ์ดํ„ฐ์˜ ์–‘์€, ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ 10%์ •๋„๊ฐ€ ์ถฉ๋ถ„
  • Context ๊ธธ์ด : 1024๊นŒ์ง€ ํ–ฅ์ƒ, ๊ทธ ์ดํ›„ ๋™์ผ ํ˜น์€ ์•ฝํ™”

๐Ÿ“š ์ •๋ฆฌ

๐Ÿ“Œ ์ œ๋ชฉ

Chronos: Learning the Language of Time Series



๐ŸŒŸ ์ดˆ๋ก

๋ฒˆ์—ญ

Chronos๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํ™•๋ฅ ๋ก ์  ์‹œ๊ณ„์—ด ๋ชจ๋ธ์„ ์œ„ํ•œ ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. Chronos๋Š” ์Šค์ผ€์ผ๋ง๊ณผ ์–‘์žํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด ๊ฐ’์„ ๊ณ ์ •๋œ ์–ดํœ˜๋กœ ํ† ํฐํ™”ํ•˜๊ณ , ์ด๋Ÿฌํ•œ ํ† ํฐํ™”๋œ ์‹œ๊ณ„์—ด์— ๋Œ€ํ•ด ๊ธฐ์กด์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค(cross-entropy loss)์„ ํ†ตํ•ด ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ์ €ํฌ๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค(Gaussian processes)๋ฅผ ํ†ตํ•ด ์ƒ์„ฑํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ๋ณด์™„ํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ์Œ์— ๊ธฐ๋ฐ˜ํ•œ T5 ๊ณ„์—ด(20M๋ถ€ํ„ฐ 710M ํŒŒ๋ผ๋ฏธํ„ฐ๊นŒ์ง€)์˜ Chronos ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ณ ์ „์ ์ธ ๋กœ์ปฌ ๋ชจ๋ธ๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” 42๊ฐœ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋œ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ์—์„œ, ์ €ํฌ๋Š” Chronos ๋ชจ๋ธ์ด (a) ํ›ˆ๋ จ ์ฝ”ํผ์Šค์— ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ๋“ค์„ ์ƒ๋‹นํžˆ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, (b) ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํŠน๋ณ„ํžˆ ํ›ˆ๋ จ๋œ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์—์„œ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๋•Œ๋กœ๋Š” ๋” ์šฐ์ˆ˜ํ•œ ์ œ๋กœ์ƒท(zero-shot) ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ €ํฌ ๊ฒฐ๊ณผ๋Š” Chronos ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ณด์ง€ ๋ชปํ•œ ์˜ˆ์ธก ์ž‘์—…์— ๋Œ€ํ•œ ์ œ๋กœ์ƒท ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์„ ํฌ๊ฒŒ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์šฉํ•œ ๋„๊ตฌ๋กœ ์ž๋ฆฌ๋งค๊น€ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ

Chornos์˜ ํŠน์ง•

  • ์Šค์ผ€์ผ๋ž‘๊ณผ ์–‘์žํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด ๊ฐ’์„ ๊ณ ์ •๋œ ์–ดํœ˜๋กœ ํ† ํฐํ™”ํ•˜์—ฌ ๊ธฐ์กด์˜ ๋ฐฉ์‹์— ์ด์‹
    • ๊ธฐ์กด์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์— ํ•™์Šต
    • ๊ธฐ์กด์˜ ์†์‹คํ•จ์ˆ˜์ธ Cross entropy๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ
  • ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ zero-shot ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ ์‹œํ‚ด

ํฌ์ธํŠธ

  • ๊ธฐ์กด์˜ ๋ฐฉ์‹
  • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹
  • zero-shot


๐Ÿ“Œ ์„œ๋ก  & ๊ฒฐ๋ก  & ๊ณ ์ฐฐ

๋ฒˆ์—ญ

์„œ๋ก 

์‹œ๊ณ„์—ด ์˜ˆ์ธก์€ ์†Œ๋งค, ์—๋„ˆ์ง€, ๊ธˆ์œต, ์˜๋ฃŒ, ๊ธฐํ›„ ๊ณผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์˜์‚ฌ ๊ฒฐ์ •์˜ ํ•„์ˆ˜์ ์ธ ๊ตฌ์„ฑ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ์ „ํ†ต์ ์œผ๋กœ ์˜ˆ์ธก์€ ARIMA ๋ฐ ETS์™€ ๊ฐ™์€ ํ†ต๊ณ„ ๋ชจ๋ธ์— ์˜ํ•ด ์ฃผ๋„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ์ ์–ด๋„ ์ตœ๊ทผ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ˆ ๋กœ์˜ ์ „ํ™˜(Hyndman & Athanasopoulos, 2018; Benidis et al., 2022)์ด ์žˆ๊ธฐ ์ „๊นŒ์ง€๋Š” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋„๊ตฌ ์—ญํ• ์„ ํ•ด์™”์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „ํ™˜์€ ๋Œ€๊ทœ๋ชจ์˜ ๋‹ค์–‘ํ•œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ์†Œ์Šค์˜ ๊ฐ€์šฉ์„ฑ๊ณผ, ๋”ฅ ์˜ˆ์ธก ๋ชจ๋ธ์˜ ๊ฐ•์ , ์ฆ‰ ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ์ปฌ๋ ‰์…˜์—์„œ ํŒจํ„ด์„ ์ถ”์ถœํ•˜๋Š” ๋Šฅ๋ ฅ์— ์œ ๋ฆฌํ•œ ์šด์˜ ์˜ˆ์ธก ๋ฌธ์ œ(Kolassa & Januschowski, 2019)์˜ ์ถœํ˜„์— ๊ธฐ์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋”ฅ ์˜ˆ์ธก ๋ชจ๋ธ์€ ์—ฌ์ „ํžˆ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ›ˆ๋ จ ๋ฐ ์˜ˆ์ธก์˜ ํ‘œ์ค€์ ์ธ ๋ฐฉ์‹ ๋‚ด์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ธก์„ ์œ„ํ•œ ์ „์ด ํ•™์Šต(transfer learning, Ye & Dai, 2018) ๋ฐ ๋„๋ฉ”์ธ ์ ์‘(domain adaptation, Jin et al., 2022)์— ์ „๋…ํ•œ ์—ฐ๊ตฌ๋“ค์ด ์žˆ์—ˆ์ง€๋งŒ, ์ด ๋ถ„์•ผ๋Š” ์•„์ง ์‹œ๊ณ„์—ด ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์ค‘์š”ํ•œ ๋ชฉํ‘œ์ธ ํ†ตํ•ฉ์ ์ด๊ณ  ๋ฒ”์šฉ์ ์ธ ์˜ˆ์ธก ๋ชจ๋ธ๋กœ ์ˆ˜๋ ด๋˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.

์ œ๋กœ์ƒท ํ•™์Šต ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถœํ˜„์€ ์‹œ๊ณ„์—ด์„ ์œ„ํ•œ โ€œ๊ธฐ์ดˆ ๋ชจ๋ธ(foundation models)โ€ ๊ฐœ๋ฐœ์— ๋Œ€ํ•œ ๊ด€์‹ฌ์„ ๋ถˆ๋Ÿฌ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค. LLM์˜ ๋งฅ๋ฝ์—์„œ, ์ด๋Ÿฌํ•œ ๊ด€์‹ฌ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ฒฝ๋กœ๋ฅผ ํ†ตํ•ด ์ถ”๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค: ์ž์—ฐ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ LLM์„ ์ง์ ‘ ํ”„๋กฌํ”„ํŠธํ•˜๋Š” ๋ฐฉ์‹(Gruver et al., 2023; Xue & Salim, 2023)๊ณผ ์‹œ๊ณ„์—ด ์ž‘์—…์„ ์œ„ํ•ด LLM์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹(Zhou et al., 2023a; Jin et al., 2024)์ž…๋‹ˆ๋‹ค.

LLM์˜ ๋งฅ๋ฝ์—์„œ, ์ด๋Ÿฌํ•œ ๊ด€์‹ฌ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ฒฝ๋กœ๋ฅผ ํ†ตํ•ด ์ถ”๊ตฌ๋˜์–ด ์™”์Šต๋‹ˆ๋‹ค: ์ž์—ฐ์–ด๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ LLM์— ์ง์ ‘ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ(Gruver et al., 2023; 1 Xue & Salim, 2023)๊ณผ ์‹œ๊ณ„์—ด ์ž‘์—…์„ ์œ„ํ•ด LLM์„ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๊ฒƒ(Zhou et al., 2023a; Jin et al., 2024)์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ๊ฐ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋Œ€ํ•œ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ๋˜๋Š” ํŒŒ์ธํŠœ๋‹์˜ ํ•„์š”์„ฑ, ๋˜๋Š” ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ž์›๊ณผ ์ถ”๋ก  ์‹œ๊ฐ„์„ ์š”๊ตฌํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ(GPT-3 (Brown et al., 2020), Llama 2 (Touvron et al., 2023) ๋“ฑ)์— ๋Œ€ํ•œ ์˜์กด์„ฑ๊ณผ ๊ฐ™์€ ์ค‘๋Œ€ํ•œ ํ•œ๊ณ„์— ์ง๋ฉดํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋™์‹œ ์—ฐ๊ตฌ(Dooley et al., 2023; Das et al., 2023; Rasul et al., 2023; Woo et al., 2024)์—์„œ๋Š” ์‹ค์ œ ๋ฐ/๋˜๋Š” ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ๋Œ€๊ทœ๋ชจ ์ฝ”ํผ์Šค์— ์ •๊ตํ•œ ์‹œ๊ณ„์—ด ํŠนํ™” ์„ค๊ณ„๋ฅผ ์ ์šฉํ•˜์—ฌ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šตํ•˜๋Š” ์—ฐ๊ตฌ๋„ ์ง„ํ–‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํ•œ ๊ฑธ์Œ ๋ฌผ๋Ÿฌ์„œ์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์งˆ๋ฌธ์„ ๋˜์ง‘๋‹ˆ๋‹ค: ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ๊ณผ ๋‹ค์Œ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ชจ๋ธ ๊ฐ„์˜ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”? ์œ ํ•œํ•œ ์‚ฌ์ „์—์„œ ์˜ค๋Š” ํ† ํฐ๊ณผ ์ผ๋ฐ˜์ ์œผ๋กœ ์—ฐ์†์ ์ธ ๋ฌดํ•œํ•œ ๋„๋ฉ”์ธ์—์„œ ์˜ค๋Š” ๊ฐ’์ด๋ผ๋Š” ๋ช…๋ฐฑํ•œ ๊ตฌ๋ถ„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋‘ ๋…ธ๋ ฅ ๋ชจ๋‘ ๊ทผ๋ณธ์ ์œผ๋กœ ๋ฏธ๋ž˜ ํŒจํ„ด์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์˜ ์ˆœ์ฐจ์  ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ข‹์€ ์–ธ์–ด ๋ชจ๋ธ์ด๋ผ๋ฉด ์‹œ๊ณ„์—ด์—์„œ๋„ โ€œ๊ทธ๋ƒฅ ์ž‘๋™โ€ํ•ด์•ผ ํ•˜์ง€ ์•Š์„๊นŒ์š”? ์ด ์ˆœ์ง„ํ•œ ์งˆ๋ฌธ์€ ์‹œ๊ณ„์—ด ํŠนํ™” ์ˆ˜์ •์˜ ํ•„์š”์„ฑ์— ์˜๋ฌธ์„ ์ œ๊ธฐํ•˜๋„๋ก ์šฐ๋ฆฌ๋ฅผ ์ž๊ทนํ–ˆ์œผ๋ฉฐ, ์ด์— ๋Œ€ํ•œ ๋‹ต์„ ์ฐพ๋Š” ๊ณผ์ •์—์„œ ์šฐ๋ฆฌ๋Š” ์‹œ๊ณ„์—ด ์˜ˆ์ธก์„ ์œ„ํ•ด ์ตœ์†Œํ•œ์œผ๋กœ ์กฐ์ •๋œ ์–ธ์–ด ๋ชจ๋ธ๋ง ํ”„๋ ˆ์ž„์›Œํฌ์ธ Chronos๋ฅผ ๊ฐœ๋ฐœํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Chronos๋Š” ์‹ค์ œ ๊ฐ’์„ ๋‹จ์ˆœํ•˜๊ฒŒ ์Šค์ผ€์ผ๋งํ•˜๊ณ  ์–‘์žํ™”ํ•˜์—ฌ ์‹œ๊ณ„์—ด์„ ์ด์‚ฐ์ ์ธ ๋นˆ(bin)์œผ๋กœ ํ† ํฐํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ ์—†์ด ์ด โ€œ์‹œ๊ณ„์—ด ์–ธ์–ดโ€์— ๊ธฐ์„ฑ ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(Chronos์˜ ๊ฐœ๋žต์ ์ธ ๋ฌ˜์‚ฌ๋Š” ๊ทธ๋ฆผ 1 ์ฐธ์กฐ). ๋†€๋ž๊ฒŒ๋„, ์ด ๊ฐ„๋‹จํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ํšจ๊ณผ์ ์ด๊ณ  ํšจ์œจ์ ์ž„์ด ์ž…์ฆ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์ตœ์†Œํ•œ์˜ ์ˆ˜์ •์œผ๋กœ ๊ด‘๋ฒ”์œ„ํ•œ ์‹œ๊ณ„์—ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

์œ ์šฉํ•œ ๋ฒ”์šฉ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ, ๊ณต๊ฐœ์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ€์กฑ(์–‘๊ณผ ์งˆ ๋ชจ๋‘)์€ ๋ชจ๋ธ๋ง ํ”„๋ ˆ์ž„์›Œํฌ๋ณด๋‹ค arguably ๋” ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Chronos๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋ฐ ์‚ฌ์šฉํ•œ ํฌ๊ด„์ ์ธ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ์Œ ์™ธ์—๋„, ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ํ•ต์‹ฌ ์ธก๋ฉด์€ TSMixup๊ณผ KernelSynth๋ฅผ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ „๋žต์˜ ํ†ตํ•ฉ์ž…๋‹ˆ๋‹ค. TSMixup์€ ์„œ๋กœ ๋‹ค๋ฅธ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ๋ณธ ์‹œ๊ณ„์—ด ์„ธํŠธ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์ด๋“ค์˜ ๋ณผ๋ก ์กฐํ•ฉ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. KernelSynth๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ปค๋„ ํ•จ์ˆ˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ๋ฒ•๋“ค์€ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์—์„œ ์ž‘์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์˜ ๋‚ด์žฌ์  ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฒฌ๊ณ ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

42๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์— ๊ฑธ์นœ ํฌ๊ด„์ ์ธ ํ‰๊ฐ€๋Š” Chronos๋ฅผ ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ์˜ˆ์ธก ๋ชจ๋‘์— ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™•๋ฆฝํ•˜๋ฉฐ, ์ „ํ†ต์ ์ธ ๋ชจ๋ธ๊ณผ ์ž‘์—…๋ณ„ ๋”ฅ๋Ÿฌ๋‹ ์ ‘๊ทผ ๋ฐฉ์‹ ๋ชจ๋‘๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•˜๊ฒŒ, Chronos๋Š” ๋ณ„๋„์˜ ์ž‘์—…๋ณ„ ์กฐ์ • ์—†์ด ์ฆ‰์‹œ ์ธ์ƒ์ ์ธ ์ œ๋กœ์ƒท ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ •ํ™•๋„์™€ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ๋ชจ๋ธ ํฌ๊ธฐ๋Š” ์ œ๋กœ์ƒท ์˜ˆ์ธก ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•ด ๋” ํฌ๊ณ  ๊ณ„์‚ฐ์ ์œผ๋กœ ๋ถ€๋‹ด์ด ํฐ ๋ชจ๋ธ๋ณด๋‹ค ์„ ํ˜ธ๋˜๋Š” ๋Œ€์•ˆ์œผ๋กœ ์ž๋ฆฌ๋งค๊น€ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์ •๋œ ์–ดํœ˜๋ฅผ ํ†ตํ•ด ์ž‘๋™ํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ๋กœ์„œ์˜ ๋ณธ์งˆ ๋•๋ถ„์—, Chronos๋Š” LLM์˜ ๋ฏธ๋ž˜ ๋ฐœ์ „๊ณผ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ผ๋ฐ˜ํ™”๋œ ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋กœ์„œ ์ถ”๊ฐ€ ๊ฐœ๋ฐœ์— ์ด์ƒ์ ์ธ ํ›„๋ณด๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. 2์ ˆ์—์„œ๋Š” ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฐ ์–ธ์–ด ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋ฐฐ๊ฒฝ์„ ์†Œ๊ฐœํ•˜๊ณ  ๊ด€๋ จ ์—ฐ๊ตฌ๋ฅผ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค. 3์ ˆ์—์„œ๋Š” ์‹œ๊ณ„์—ด์„ ์œ„ํ•œ ์ œ์•ˆ๋œ ์–ธ์–ด ๋ชจ๋ธ๋ง ํ”„๋ ˆ์ž„์›Œํฌ์ธ Chronos๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. 4์ ˆ์—์„œ๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•๊ณผ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค. 5์ ˆ์—์„œ๋Š” ์ฃผ์š” ๊ฒฐ๊ณผ์™€ ๋‹ค์–‘ํ•œ ์„ค๊ณ„ ์„ ํƒ์— ๋Œ€ํ•œ ์—„๊ฒฉํ•œ ๋ถ„์„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. 6์ ˆ์—์„œ ํ–ฅํ›„ ๋ฐฉํ–ฅ์„ ๋…ผ์˜ํ•˜๊ณ  7์ ˆ์—์„œ ๋…ผ๋ฌธ์„ ๋งˆ๋ฌด๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋ถ€๋ก์— ์ถ”๊ฐ€ ์ž๋ฃŒ๊ฐ€ ์ œ์‹œ๋ฉ๋‹ˆ๋‹ค.


๊ฒฐ๋ก 

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฏธ๋‹ˆ๋ฉ€๋ฆฌ์ŠคํŠธ์˜ ๊ด€์ ์—์„œ ์ผ๋ฐ˜ํ™”๋œ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฌธ์ œ์— ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ ํ›ˆ๋ จ ์ ˆ์ฐจ๋ฅผ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์— ์ ์šฉํ•˜์—ฌ, ์˜ˆ์ธก์„ ์œ„ํ•ด ์‹œ๊ณ„์—ด ํŠน์ • ํŠน์ง•์ด๋‚˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ํ†ต๋…์— ๋„์ „ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์—ญ์„ค์ ์œผ๋กœ ์‹œ๊ฐ„์— ๋…๋ฆฝ์ ์ธ ์‹œ๊ณ„์—ด์„ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋ธ๋ง ํ”„๋ ˆ์ž„์›Œํฌ์ธ Chronos๋ฅผ ํƒ„์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. Chronos์˜ ํŠน์ง•์€ ๋ชจ๋“  ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€์˜ ํ˜ธํ™˜์„ฑ์ด๋ฉฐ, ์Šค์ผ€์ผ๋ง ๋ฐ ์–‘์žํ™”๋ฅผ ํ†ตํ•œ ํ† ํฐํ™”๋ผ๋Š” ์ตœ์†Œํ•œ์˜ ์ˆ˜์ •๋งŒ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ๋„๋ฉ”์ธ ๋‚ด ์„ฑ๋Šฅ ์ธก๋ฉด์—์„œ ๊ธฐ์กด์˜ ๋กœ์ปฌ ๋ชจ๋ธ ๋ฐ ์ž‘์—…๋ณ„ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ค€ ๋ชจ๋ธ์„ ์ƒ๋‹นํžˆ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋”์šฑ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€, Chronos ๋ชจ๋ธ์ด ๋ณด์ง€ ๋ชปํ•œ ๋ฐ์ดํ„ฐ์…‹(์ œ๋กœ์ƒท ์„ฑ๋Šฅ)์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์œผ๋ฉฐ, ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ›ˆ๋ จ๋œ ์ตœ๊ณ ์˜ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ค€ ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ , ๋ฏธ์„ธ ์กฐ์ •์„ ํ†ตํ•œ ์ถ”๊ฐ€ ๊ฐœ์„ ์˜ ์œ ๋งํ•œ ์ฆ๊ฑฐ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ๊ธฐ์—ฌ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ธก๋ฉด์—์„œ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์‹œ๊ณ„์—ด ํŠน์ • ์‚ฌ์šฉ์ž ์ •์˜ ์—†์ด ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” LLM ๋ถ„์•ผ์˜ ๋ฐœ์ „๊ณผ ๋” ๋‚˜์€ ๋ฐ์ดํ„ฐ ์ „๋žต์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ€์†ํ™”๋œ ๋ฐœ์ „์„ ์œ„ํ•œ ๊ธธ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค. ๋‘˜์งธ, ์‹ค์งˆ์ ์ธ ์ˆ˜์ค€์—์„œ Chronos ๋ชจ๋ธ์˜ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์€ ๋Œ€๊ทœ๋ชจ(์˜ˆ์ธก ๊ธฐ์ค€) ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ์ด ์ •ํ™•๋„๋ฅผ ํฌ์ƒํ•˜์ง€ ์•Š๊ณ  ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์„ ํฌ๊ฒŒ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ๊ฐœ๋ณ„ ์ž‘์—…์— ๋Œ€ํ•œ ๋ชจ๋ธ ํ›ˆ๋ จ ๋ฐ ํŠœ๋‹์„ ํฌํ•จํ•˜๋Š” ๊ธฐ์กด ์ ‘๊ทผ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์ถ”๋ก  ์ „์šฉ ๋Œ€์•ˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๊ณ ์ฐฐ

Chronos๋Š” ์‹ค์šฉ์ ์ธ ์‚ฌ์ „ ํ•™์Šต๋œ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ๋…ธ๋ ฅ ์ค‘ ํ•˜๋‚˜๋กœ, ํฌ๊ด„์ ์ธ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ์Œ์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ œ๋กœ์ƒท(zero-shot) ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์•„๋ž˜์—์„œ ๋…ผ์˜ํ•  ๋ช‡ ๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค.

6.1 ์ œ๋กœ์ƒท ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์„ ๋„˜์–ด์„œ

์‹คํ—˜์—์„œ ์šฐ๋ฆฌ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์ œ๋กœ์ƒท ๋ฐฉ์‹์œผ๋กœ Chronos๋ฅผ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค์ •์€ ์ œ๋กœ์ƒท Chronos ๋ชจ๋ธ์ด ํŠน์ • ์ž‘์—… ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์— ๋น„ํ•ด ๊ฒฝ์Ÿ๋ ฅ์ด ์žˆ์Œ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ธ-๋„๋ฉ”์ธ(in-domain) ๋ฐ ์ œ๋กœ์ƒท ๊ฒฐ๊ณผ ๋ชจ๋‘ ์„น์…˜ 5.5.2์—์„œ ๊ฐ„๋žตํ•˜๊ฒŒ ํƒ์ƒ‰ํ•œ ํŒŒ์ธํŠœ๋‹(fine-tuning)์„ ํ†ตํ•ด ๋”์šฑ ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ์šฐ๋žญํฌ ์–ด๋Œ‘ํ„ฐ(low-rank adapters, LoRA) (Hu et al., 2022; Zhang et al., 2023)์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐฉ๋ฒ•๊ณผ ๊ฐ™์€ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์ ์ธ ํŒŒ์ธํŠœ๋‹ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋Œ€์•ˆ์ ์œผ๋กœ, Chronos๋Š” ์ปจํฌ๋ฉ€(conformal) ๋ฐฉ๋ฒ• (Romano et al., 2019; Stankeviciute et al., 2021; Xu & Xie, 2021)์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ๋ณด์ •๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Chronos๋Š” ์ปจํฌ๋ฉ€ ์˜ˆ์ธก(conformal prediction)์˜ ๋งฅ๋ฝ์—์„œ ํŠนํžˆ ๋งค๋ ฅ์ ์ธ๋ฐ, ์ด๋Š” ํ›ˆ๋ จ ์„ธํŠธ๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์ •์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ธ ์‹ค์ œ ์‹œ๊ณ„์—ด ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๊ท ์ผํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ณ„์—ด์˜ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์‹ค์ œ ์˜ˆ์ธก ์ž‘์—…์€ ์ข…์ข… ๊ณ ๋ คํ•ด์•ผ ํ•  ์™ธ์ƒ ์ •๋ณด(exogenous information)๋ฅผ ํฌํ•จํ•˜๊ฑฐ๋‚˜ ๋ถˆ๊ทœ์น™ํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ณ„์—ด์˜ ๋ชจ๋ธ๋ง์„ ํ•„์š”๋กœ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (Rubanova et al., 2019; Ansari et al., 2023).

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์‹ค์ œ ์˜ˆ์ธก ์ž‘์—…์—๋Š” ๊ณ ๋ ค๋˜์–ด์•ผ ํ•˜๋Š” ์™ธ์ƒ ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜๊ฑฐ๋‚˜ ๋ถˆ๊ทœ์น™์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋ง์„ ์š”๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (Rubanova et al., 2019; Ansari et al., 2023). ์™ธ์ƒ ์ •๋ณด์˜ ํ•œ ์˜ˆ์‹œ๋Š” ์‹œ๊ฐ„ ๋…๋ฆฝ์ (์˜ˆ: ์ œํ’ˆ์˜ ์ƒ‰์ƒ)์ด๊ฑฐ๋‚˜ ์‹œ๊ฐ„ ๊ฐ€๋ณ€์ (์˜ˆ: ์ œํ’ˆ์ด ํŒ๋งค๋˜๋Š” ์š”์ผ)์ธ ๊ณต๋ณ€๋Ÿ‰์ž…๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ๋ฐ€์ ‘ํ•˜๊ฒŒ ๊ด€๋ จ๋œ ๋ฌธ์ œ๋Š” ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก์œผ๋กœ, ํ•œ ์‹œ๊ณ„์—ด(์˜ˆ: ๊ธˆ๋ฆฌ)์˜ ๊ณผ๊ฑฐ ๊ฐ’์ด ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด(์˜ˆ: ์ฃผํƒ ๊ฐ€๊ฒฉ)์˜ ์˜ˆ์ธก์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณต๋ณ€๋Ÿ‰ ๋˜๋Š” ๋‹ค๋ณ€๋Ÿ‰ ์ฐจ์›์˜ ์ˆ˜๋Š” ์ž‘์—…๋งˆ๋‹ค ํฌ๊ฒŒ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ์กฐํ•ฉ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋‹จ์ผ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๊ฐ€๋Šฅํ•œ ํ•ด๊ฒฐ์ฑ…์€ ๊ณต๋ณ€๋Ÿ‰์„ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์˜ˆ์ธก ๋ชจ๋ธ์— ์ฃผ์ž…ํ•˜๋Š” ์ž‘์—…๋ณ„ ์–ด๋Œ‘ํ„ฐ๋ฅผ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (Rahman et al., 2020). ๋‹ค๋ฅธ ์˜ต์…˜์œผ๋กœ๋Š” Chronos์™€ LightGBM (Ke et al., 2017)๊ณผ ๊ฐ™์ด ๊ณต๋ณ€๋Ÿ‰ ์ฒ˜๋ฆฌ์— ๋›ฐ์–ด๋‚œ ๋‹ค๋ฅธ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์˜ ์Šคํƒœํ‚น ์•™์ƒ๋ธ”(Ting & Witten, 1997)์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ง€๊ธˆ๊นŒ์ง€ ์šฐ๋ฆฌ์˜ ํƒ์ƒ‰์€ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฌธ์ œ์— ์ง‘์ค‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ถ„๋ฅ˜, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ์ด์ƒ ํƒ์ง€์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ์—ฌ๋Ÿฌ ์‹œ๊ณ„์—ด ๋ถ„์„ ์ž‘์—…(Dau et al., 2018; Wu & Keogh, 2021; Ismail Fawaz et al., 2019; Goswami et al., 2024)์€ Chronos์™€ ๊ฐ™์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์ž ์žฌ์ ์œผ๋กœ ์ด์ ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Chronos-T5 ๋ชจ๋ธ์˜ ์ธ์ฝ”๋”์— ์˜ํ•ด ํ•™์Šต๋œ ํ‘œํ˜„์ด ๋ณดํŽธ์ ์ด๋ฉฐ ์ด๋Ÿฌํ•œ ์ž‘์—…์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ๋Œ€ํ•œ Chronos-T5 ํ‘œํ˜„์˜ ํƒ์ƒ‰์€ ํฅ๋ฏธ๋กœ์šด ํ–ฅํ›„ ์—ฐ๊ตฌ๋ฅผ ๊ตฌ์„ฑํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

6.2 ์ถ”๋ก 

๋” ํฐ Chronos ๋ชจ๋ธ์˜ ์ž ์žฌ์ ์ธ ํ•œ๊ณ„๋Š” ์ž‘์—…๋ณ„ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์— ๋น„ํ•ด ์ถ”๋ก  ์†๋„์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 17์€ ๋ฐ์ดํ„ฐ์…‹ ์ „๋ฐ˜์— ๊ฑธ์ณ ํ‰๊ท ํ™”๋œ ๋‹จ์ผ ์‹œ๊ณ„์—ด์— ๋Œ€ํ•œ ์˜ˆ์ธก ์ƒ์„ฑ์˜ ์ถ”๋ก  ์‹œ๊ฐ„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋” ํฐ Chronos ๋ชจ๋ธ์˜ ์ถ”๋ก  ์†๋„๋Š” ์ผ๋ถ€ ํ†ต๊ณ„์  ๋กœ์ปฌ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, Chronos ๋ชจ๋ธ์€ ์ž‘์—…๋ณ„ ๋ชจ๋ธ๋ณด๋‹ค ๋А๋ฆฌ์ง€๋งŒ, ๊ธˆ์ง€๋  ์ •๋„๋กœ ๋А๋ฆด ๋งŒํผ ํฌ์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๋”์šฑ์ด, ์ž‘์—…๋ณ„ ๋ชจ๋ธ์€ ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด ๊ฐœ๋ณ„์ ์œผ๋กœ ํ›ˆ๋ จ๋˜์–ด์•ผ ํ•˜๋ฉฐ, ์ด๋Š” ์ถ”๊ฐ€์ ์ธ ์‹œ๊ฐ„๊ณผ ์ปดํ“จํŒ… ์ž์›์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋Œ€์กฐ์ ์œผ๋กœ, Chronos ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ์ด๋ ฅ ๊ธธ์ด, ๋นˆ๋„, ์˜ˆ์ธก ์ง€ํ‰์„  ๋ฐ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ์…‹์— ๋ฐฐํฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ๋ฐฐํฌ๋ฅผ ํ›จ์”ฌ ๋” ์‰ฝ๊ฒŒ ๋งŒ๋“ค๊ณ  ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์„ ๋Œ€ํญ ๋‹จ์ˆœํ™”ํ•˜์—ฌ ์ž‘์—…๋ณ„ ํ›ˆ๋ จ์˜ ํ•„์š”์„ฑ์„ ์—†์•ฑ๋‹ˆ๋‹ค.

์‹œ๊ณ„์—ด์„ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋ธ๋ง ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•จ์œผ๋กœ์จ, ์šฐ๋ฆฌ๋Š” NLP ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๋ฐœ์ „์„ Chronos ๋ชจ๋ธ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ตœ์‹  Ampere GPU์— ์ตœ์ ํ™”๋œ CUDA ์ปค๋„, ์–‘์žํ™”(Dettmers et al., 2022), ๊ทธ๋ฆฌ๊ณ  ์ถ”์ธก์ (Leviathan et al., 2023) ๋ฐ ๋ฏธ๋ฆฌ๋ณด๊ธฐ(Fu et al., 2023) ๋””์ฝ”๋”ฉ์„ ํฌํ•จํ•œ ๋” ๋น ๋ฅธ ๋””์ฝ”๋”ฉ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”๋ก  ์†๋„๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์žฅ๊ธฐ ์ปจํ…์ŠคํŠธ ์–ธ์–ด ๋ชจ๋ธ(Sun et al., 2022; Dao, 2023)์˜ ๋ฐœ์ „์€ ๊ณ„์ ˆ ํŒจํ„ด์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์š”๊ตฌํ•˜๋Š” ๊ณ ๋นˆ๋„ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ Chronos ๋ชจ๋ธ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜จ๋„ ํŠœ๋‹, ๋น” ์„œ์น˜(Freitag & Al-Onaizan, 2017), Top-K ์ƒ˜ํ”Œ๋ง(Fan et al., 2018), ํ•ต ์ƒ˜ํ”Œ๋ง(Holtzman et al., 2019)๊ณผ ๊ฐ™์ด ํ…์ŠคํŠธ ์–ธ์–ด ๋ชจ๋ธ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ๋‹ค๋ฅธ ๊ธฐ๋ฒ•๋“ค์€ ์˜ˆ์ธก ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ ์—ฌ๋Ÿฌ ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์ง‘๊ณ„๋ฅผ ์š”๊ตฌํ•˜๋Š” ํฌ์ธํŠธ ์˜ˆ์ธก์˜ ์†๋„์™€ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ํŠนํžˆ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.3 ๋ฐ์ดํ„ฐ

์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ์ฝ”ํผ์Šค์—์„œ ๋” ํฐ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์ด ์šฐ์ˆ˜ํ•œ ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , NLP์™€ ๋Œ€์กฐ์ ์œผ๋กœ, ๊ณ ํ’ˆ์งˆ์˜ ๊ณต๊ฐœ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” ์—ฌ์ „ํžˆ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์˜ ๋Œ€๊ทœ๋ชจ ์ฝ”ํผ์Šค์—์„œ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ๋•Œ ๋”œ๋ ˆ๋งˆ๋ฅผ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ›ˆ๋ จ์„ ์œ„ํ•ด ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹์„ ์„ ํƒํ•˜๋ฉด ์ œ๋กœ์ƒท ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” Chronos์™€ ๊ฐ™์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๋” ํฐ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ€์šฉ์„ฑ์œผ๋กœ๋ถ€ํ„ฐ ํฐ ์ด์ ์„ ์–ป์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠน์ • ๋„๋ฉ”์ธ(Emami et al., 2023; Liu et al., 2023) ๋ฐ ๊ต์ฐจ ๋„๋ฉ”์ธ(Borchert et al., 2022)์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์— ๋Œ€ํ•œ ์ตœ๊ทผ์˜ ๋…ธ๋ ฅ๋“ค์ด ์žˆ์—ˆ์ง€๋งŒ, ์ถ”๊ฐ€์ ์ธ ํˆฌ์ž๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋˜ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์€ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๋Š” ๋” ๋‚˜์€ ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ์œ ์šฉ์„ฑ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ์ž…์ฆํ•˜๊ณ , ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ํ†ตํ•ฉ๋  ๋•Œ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•จ์œผ๋กœ์จ ์ด ๋ฐฉํ–ฅ์œผ๋กœ ์ƒ๋‹นํ•œ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์กฐ์ฐจ๋„ ํ•ฉ๋ฆฌ์ ์ธ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์˜ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•œ ๊ฐœ์„  ๋ฐฉ์•ˆ์„ ์ œ์•ˆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.



๋‚ด์šฉ

์„œ๋ก 

ARIMA, ETS โ†’ DL ์ „ํ™˜์ „๊นŒ์ง€ ์ง€๋ฐฐ์ ์ด์—ˆ์Œ DL๋กœ ์ „ํ™˜์ดํ›„ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์—ˆ๋”๋ผ๋„, ๋™์ผํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋Œ€ํ•œ ํ›ˆ๋ จ ๋ฐ ์˜ˆ์ธก์ด ํ‘œ์ค€์ ์ธ ๋ฐฉ์‹์•ˆ์—์„œ ์ž‘๋™ํ•จ Transfer Learning, Domatin Adaptation๊ณผ ๊ฐ™์€ ์—ฐ๊ตฌ๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ ์‹œ๊ณ„์—ด์˜ ์ค‘์š”ํ•œ ๋ชฉํ‘œ์ธ ํ†ตํ•ฉ์ ์ด๊ณ  ๋ฒ”์šฉ์ ์ธ ๋ชจ๋ธ์˜ ์„ค๊ณ„์—๋Š” ํ•œ๊ณ„์ ์ด ์žˆ์Œ

LLM์˜ ๋“ฑ์žฅ์œผ๋กœ zero-shot์— ๋Œ€์‘๊ฐ€๋Šฅํ•œ foundation ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ๊ด€์‹ฌ์ด ์ฆ๊ฐ€ํ•˜์˜€๋‹ค.

  • ์ž์—ฐ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ LLM์„ ์ง์ ‘ ํ”„๋กฌํ”„ํŒ…ํ•˜๋Š” ๋ฐฉ์‹
  • ์‹œ๊ณ„์—ด ์ž‘์—…์„ ์œ„ํ•ด LLM์„ fine tunningํ•˜๋Š” ๋ฐฉ์‹ โ†’ ์ด๋Š” ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง, ํŒŒ์ธํŠœ๋‹์˜ ํ•„์š”์„ฑ ๊ทธ๋ฆฌ๊ณ  ๋งŽ์€ ๊ณ„์‚ฐ์ž์›์ด ํ•„์š”ํ•œ GPT-3๋‚˜ llama2๋“ฑ์— ๋Œ€ํ•ด ์˜์กด์„ฑ์ด ์กด์žฌํ•œ๋‹ค.

์ตœ๊ทผ์—๋Š” ์‹ค์ œ ํ˜น์€ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ํ†ตํ•ด์„œ ์‹œ๊ณ„์—ด์— ํŠนํ™”๋œ ํŠธ๋žœ์Šคํฌ๋จธ ์„ค๊ณ„๋ฅผ ์ง„ํ–‰ํ•˜๋Š” ์—ฐ๊ตฌ๋„ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Œ

์ด ๋…ผ๋ฌธ์€ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ์ž์—ฐ์–ด ๋ชจ๋ธ vs ๋‹ค์Œ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ์‹œ๊ณ„์—ด ๋ชจ๋ธ์˜ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด์ ์— ๋Œ€ํ•ด์„œ ๊ณ ์ฐฐํ•จ

  • ์œ ํ•œํ•œ ์ฝ”ํผ์Šค vs ๋ฌดํ•œํ•œ ๋„๋ฉ”์ธ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  โ†’ ๋ฏธ๋ž˜ ํŒจํ„ด์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š”๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š”๊ฒƒ์€ ๊ฐ™์Œ ๋”ฐ๋ผ์„œ ๊ณผ์—ฐ ์‹œ๊ณ„์—ด์— ํŠนํ™”๋œ ์ˆ˜์ •์ด๋‚˜ ์„ค๊ณ„๊ฐ€ ํ•„์š”์žˆ์„๊นŒ์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ์งˆ๋ฌธ์„ ํ•˜๊ฒŒ ํ•จ

Chronos๋Š” ์‹œ๊ณ„์—ด ์˜ˆ์ธก์„ ์œ„ํ•ด ์ตœ์†Œํ•œ์œผ๋กœ LLM์„ ์ˆ˜์ •ํ•œ ๋ชจ๋ธ์ด๋ฉฐ, ์‹œ๊ณ„์—ด ์˜ˆ์ธก์„ ์œ„ํ•ด ์‹ค์ œ๊ฐ’์„ ๋‹จ์ˆœํ•˜๊ฒŒ ์Šค์ผ€์ผ๋ง ๋ฐ ์–‘์žํ™”๋ฅผ ํ†ตํ•ด ์‹œ๊ณ„์—ด์„ ์ด์‚ฐ์ ์ธ bin์œผ๋กœ ํ† ํฐํ™” ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฐฉ์‹์€ ์‹œ๊ณ„์—ด์„ โ€œ์‹œ๊ณ„์—ด ์–ธ์–ดโ€๋กœ์„œ ์–ธ์–ด ๋ชจ๋ธ์— ํ›ˆ๋ จ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๋†€๋ž๋„๋ก ํšจ๊ณผ์ ์ž„

๋”ฐ๋ผ์„œ ๋ชจ๋ธ๋ณด๋‹ค๋Š” ๊ธฐ๋ฒ•๋“ค์ด ์ค‘์š”ํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์•„๋ž˜์˜ ์ฆ๊ฐ•์„ ์ ์šฉํ•˜์˜€๋‹ค.

  • TSMixup : ์„œ๋กœ ๋‹ค๋ฅธ ํ›ˆ๋ ค์…‹์—์„œ ๊ธฐ๋ณธ ์‹œ๊ณ„์—ด ์„ธํŠธ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ๋ณผ๋ก์กฐํ•ฉ์„ ํ†ตํ•œ ์ƒˆ๋กœ์šด ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹
  • KernelSynth : ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด ์ปค๋„ ํ•จ์ˆ˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑ โ†’ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์œผ๋กœ ๋ถ€์กฑํ•œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”์™€ ๋ชจ๋ธ์˜ ๊ฒฌ๊ณ ์„ฑ ๋‘˜ ๋‹ค ์ฑ™๊ธธ ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€๋‹ค.

๋ณ„๋„์˜ ํŒŒ์ธํŠœ๋‹์—†์ด ์ƒ๋‹นํ•œ zero-shot์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋ฉฐ, ๋ชจ๋ธ์ด ๊ฐ€๋ณ๊ธฐ ๋•Œ๋ฌธ์— ํšจ๊ณผ์ ์ด๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ ๊ณ ์ •๋œ ์–ดํœ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ๋กœ์„œ ์ ‘๊ทผํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์—, LLM์— ํ†ตํ•ฉ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค.

Figure 1


๊ฒฐ๋ก 

์‹œ๊ณ„์—ด ํŠนํ™” ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š”๊ฒƒ์— ๋ฐ˜๋Œ€๋กœ ์ ‘๊ทผํ•˜๋ฉฐ, ๋ชจ๋“  ์–ธ์–ด๋ชจ๋ธ์— ๋Œ€ํ•ด ํ˜ธํ™˜๊ฐ€๋Šฅํ•˜๋ฉฐ ์ด๋Š” ์ตœ์†Œํ•œ์˜ ์ˆ˜์ •์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค.

  • ์Šค์ผ€์ผ๋ง๊ณผ ์–‘์žํ™” โ†’ ํ† ํฐํ™” ํŒŒ์ธํŠœ๋‹์„ ํ•˜์ง€ ์•Š๊ณ ๋„ ์ธ์ƒ์ ์ธ zero-shot์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ํŒŒ์ธํŠœ๋‹์„ ์ง„ํ–‰ํ•˜๋ฉด ์–ผ๋งˆ๋‚˜ ์ข‹์„์ง€์— ๋Œ€ํ•ด์„œ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Œ

Chronos๋Š”

  1. ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‹œ๊ณ„์—ด์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คŒ
  2. ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์„ ๋‹จ์ˆœํ™” ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ(๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋ฉด ๋˜๊ธฐ์—) โ†’ ์ถ”๋ก ์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด ๊ด€์ ์œผ๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ


ํฌ์ธํŠธ

์„œ๋ก 

ARIMA ์‹œ๊ณ„์—ด์„ ์ž๊ธฐํšŒ๊ท€(AR) + ์ด๋™ํ‰๊ท (MA) + ์ฐจ๋ถ„(I: differencing)์œผ๋กœ ์„ค๋ช…ํ•˜๋Š” ๊ณ ์ „์ ์ธ ํ†ต๊ณ„๋ชจ๋ธ ๋ณดํ†ต $ARIMA(p, d, q)$๋กœ ํ‘œ๊ธฐํ•˜๋ฉฐ, d๋ฒˆ ์ฐจ๋ถ„์œผ๋กœ ์ •์ƒ์„ฑ์„ ํ™•๋ณดํ•œ๋’ค ์ž๊ธฐ์ƒ๊ด€์„ ๋ชจ๋ธ๋งํ•จ(ACF/PACF)

  • ๊ฐ•์  : ๋ฐ์ดํ„ฐ์ˆ˜๊ฐ€ ์ž‘์•„๋„ ์ž˜ ์ž‘๋™, ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(์ž๊ธฐ์ƒ๊ด€), ์˜ˆ์ธก๊ตฌ๊ฐ„์„ ์ด๋ก ์ ์œผ๋กœ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ
  • ํ•œ๊ณ„ : ๊ฐ•ํ•œ ๋น„์„ ํ˜• & ๋ณต์žกํ•œ ํŒจํ„ด์—๋Š” ์•ฝํ•จ, ๊ณ„์ ˆ์„ฑ ๋ฐ ๊ตฌ์กฐ๋ณ€ํ™”๊ฐ€ ์žˆ์œผ๋ฉด(์ž”์ฐจ๊ฐ€ ๋น„์ •๊ทœ ํ˜น์€ ์ž๊ธฐ์ƒ๊ด€์ด ๋‚จ์œผ๋ฉด) ์„ฑ๋Šฅ์ด ํ”๋“ค๋ฆด ์ˆ˜ ์žˆ์Œ
    1. ์ž๊ธฐํšŒ๊ท€(AR, p : ํ˜„์žฌ๊ฐ’์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ๊ณผ๊ฑฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ช‡๊ฐœ๊นŒ์ง€ ๋ณผ ๊ฒƒ์ธ์ง€) : ๊ณผ๊ฑฐ์˜ ์ž๊ธฐ์ž์‹ ์ด ํ˜„์žฌ์˜์˜ ์ž๊ธฐ์ž์‹ ์„ ๊ฒฐ์ •
    2. ์ฐจ๋ถ„(I, d : ๋ช‡๋ฒˆ์ด๋‚˜ ๋บ„๊ฑด์ง€) : โ€œ์ •์ƒ์„ฑโ€์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ํ˜„์žฌ ๊ฐ’์—์„œ ๊ณผ๊ฑฐ ๊ฐ’์„ ๋นผ๋Š” ๊ฒƒ. ์ด๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์šฐ์ƒํ–ฅ์ด๊ฑฐ๋‚˜ ๊ณ„์ ˆ์„ฑ์ด ์žˆ์œผ๋ฉด ํ†ต๊ณ„์  ๋ถ„์„์ด ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ์ฐจ๋ถ„์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท ๋ฐ ๋ถ„์‚ฐ์„ ์ผ์ •ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š”๊ฒƒ
    3. ์ด๋™ํ‰๊ท (MA, q : ๊ณผ๊ฑฐ์˜ ์˜ค์ฐจ๋ฅผ ๋ช‡ ๊ฐœ๊นŒ์ง€ ๋ฐ˜์˜ํ• ๊ฒƒ์ธ๊ฐ€) : ๊ณผ๊ฑฐ์˜ ์˜ˆ์ธก์˜ค์ฐจ๊ฐ€ ํ˜„์žฌ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ
    4. ACF(์ž๊ธฐ์ƒ๊ด€ํ•จ์ˆ˜) : ์‹œ์ฐจ์— ๋”ฐ๋ฅธ $y_t$์™€ $y_{t-k}$์‚ฌ์ด์˜ ์ƒ๊ด€๊ด€๊ณ„ ์ธก์ •, MA(q)์˜ ์ฐจ์ˆ˜๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ. ACF๊ทธ๋ž˜ํ”„๊ฐ€ ํŠน์ • ์‹œ์ ์ดํ›„์— 0์œผ๋กœ ๊ฐ‘์ž๊ธฐ ๋–จ์–ด์ง„๋‹ค๋ฉด, ๊ทธ ์ง€์ ์ด q์ž„
    5. PACF(๋ถ€๋ถ„์ž๊ธฐ์ƒ๊ด€ํ•จ์ˆ˜) : ๋‘ ์  ์‚ฌ์ด์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์ธก์ •ํ•˜๋˜, ๊ทธ ์‚ฌ์ด์˜ ์ง€์ ๋“ค์˜ ์˜ํ–ฅ๋ ฅ์„ ์ œ๊ฑฐํ•œ ์ˆœ์ˆ˜ํ•œ ์ƒ๊ด€๊ด€๊ณ„๋งŒ ๋ด„. AR(p)์˜ ์ฐจ์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•  ๋•Œ ์‚ฌ์šฉ. PACF๊ทธ๋ž˜ํ”„๊ฐ€ ํŠน์ • ์‹œ์ ์ดํ›„์— 0์œผ๋กœ ๊ฐ‘์ž๊ธฐ ๋–จ์–ด์ง„๋‹ค๋ฉด, ๊ทธ ์ง€์ ์ด p์ž„

ETS(Error-Trend-Seasonal) ์ง€์ˆ˜ํ‰ํ™œ(exponential smoothing)์€ ์ตœ๊ทผ ๊ด€์ธก์น˜์— ๋” ํฐ ๊ฐ€์ค‘์น˜๋ฅผ ๋‘๋Š” ๊ธฐ๋ฒ•์ด๊ณ , ์ด๋ฅผ ์ƒํƒœ๊ณต๊ฐ„์— ์ •์‹ํ™”ํ•˜์—ฌ ํ™•๋ฅ ๋ชจํ˜•๊ณผ AIC(์ž๋™ ๋ชจํ˜• ์„ ํƒ)๋“ฑ์— ์‚ฌ์šฉ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“  ์ฒด๊ณ„

  • ๊ฐ•์  : ์ถ”์„ธ์™€ ๊ณ„์ ˆ์„ฑ์ด ๋ช…ํ™•ํ•œ ๋น„์ •์ƒ ์‹œ๊ณ„์—ด์— ๊ฐ•ํ•˜๋ฉฐ, ์‹ค๋ฌด ์—…๋ฌด ์˜ˆ์ธก์— ๋„๋ฆฌ ์‚ฌ์šฉ
  • ํ•œ๊ณ„ : ์„ธ์ƒ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋น„์ •์ƒ์ ์ด๋ผ๋Š” ์ฒ ํ•™์œผ๋กœ ์„ค๊ณ„ํ•จ, ๋”ฐ๋ผ์„œ ์ •์ƒ์„ฑ์ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์—๋Š” ARIMA๊ฐ€ ๋” ์ž์—ฐ์Šค๋Ÿฌ์šธ ์ˆ˜ ์žˆ์Œ
    1. ์ •์ƒ์„ฑ(Stationarity) : ๋ฐ์ดํ„ฐ๊ฐ€ ์‹œ๊ฐ„์ด ์ง€๋‚˜๋„ ๋ณ€ํ™”ํ•˜์ง€ ์•Š๋Š” ์„ฑ์งˆ
    • ํ‰๊ท ์ด ์ผ์ •ํ•จ
    • ๋ถ„์‚ฐ์ด ์ผ์ •ํ•จ
    • ๊ณต๋ถ„์‚ฐ์ด ์ผ์ •ํ•จ
      1. ์ •์ƒ์„ฑ์„ ์ด๋ฃจ๊ธฐ ์œ„ํ•œ ์ฐจ๋ถ„
    • 1์ฐจ ์ฐจ๋ถ„ : $y_t - y_{t-1}$์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”์„ธ๋ฅผ ์ œ๊ฑฐ
    • ๋กœ๊ทธ ๋ณ€ํ™˜ : ๋ณ€๋™ ํญ์ด ๊ฐ€๋ฉด๊ฐˆ์ˆ˜๋ก ์ปค์ง€๋Š” ๊ฒฝ์šฐ
    • ๊ณ„์ ˆ ์ฐจ๋ถ„ : $y_t - y_{t-m}$์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์ ˆ์„ฑ์„ ์ œ๊ฑฐ

LLM Zero-Shot Forecasters (Gruver et al., 2023) ์‹œ๊ณ„์—ด ๊ฐ’์„ ์ˆซ์ž ๋ฌธ์ž์—ด๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ โ€œ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธกโ€๋ฌธ์ œ๋กœ ๋ฐ”๊ฟ”๋ฒ„๋ฆผ. ์ด๋ฅผ ํ†ตํ•ด GPT-3, LLaMA-2์™€ ๊ฐ™์€ ๋ชจ๋ธ์— ์ถ”๊ฐ€ํ•™์Šต์—†์ด ์™ธ์‚ฝ์„ ๊ฝค๋‚˜ ์ž˜ํ•œ๋‹ค โ†’ Zero-shot๊ฐ€๋Šฅ์„ฑ

  • ์ˆซ์ž ํ† ํฌ๋‚˜์ด์ง•/๋””์ฝ”๋”ฉ์„ ์„ค๊ณ„ โ†’ ํ† ํฐ ๋ถ„ํฌ์˜ ์—ฐ์†๊ฐ’์„ ํ™•๋ฅ ๋ถ„ํฌ๋กœ ๋ฐ”๊พธ๋Š” ์ ˆ์ฐจ๋ฅผ ์ œ์•ˆ
  • GPT-4๊ฐ€ ์ˆซ์ž ํ† ํฌ๋‚˜์ด์ง•&์ •๋ ฌ(RLHF) ์˜ํ–ฅ์œผ๋กœ GPT-3๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ
  • ์‹œ์‚ฌ์  : ํ…์ŠคํŠธ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์ด ์‹œ๊ณ„์—ด์—๋„ ์ ์šฉ์ด ๊ฐ€๋Šฅํ•จ์„ ์‹œ์‚ฌ
  • ํ•œ๊ณ„์  : ์ˆซ์ž ํ‘œํ˜„ ๋ฐ ํ† ํฌ๋‚˜์ด์ € ์„ค๊ณ„์— ๋ฏผ๊ฐํ•˜๋ฉฐ, ์Šค์ผ€์ผ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ฐจ์ด๊ฐ€ ํผ
    1. ์™ธ์‚ฝ : ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ ํŒจํ„ด์„ ๋ณด๊ณ , ์•„์ง ์˜ค์ง€ ์•Š์€ ๋ฏธ๋ž˜์˜ ๊ฐ’์„ ์˜ˆ์ธก

Time-LLM: Time Series Forecasting by Reprogramming LLMs (Jin et al., ICLR 2024) LLM์„ frozen์‹œํ‚ค๊ณ  ์ž…๋ ฅ์‹œ๊ณ„์—ด์„ ํ…์ŠคํŠธ๋กœ ์žฌํ”„๋กœ๊ทธ๋ž˜๋ฐ(Reprogramming)ํ•˜์—ฌ LLM์ด ๋‹ค๋ฃจ๊ธฐ ์‰ฌ์šด ํ˜•ํƒœ๋กค ์ •๋ ฌ์‹œํ‚ค๋Š” ํ”„๋ ˆ์ž„์›Œํฌ โ€œPrompt-as-Prefix(PaP)โ€๋กœ ๋ฌธ๋งฅ์„ ํ’๋ถ€ํ•˜๊ฒŒ ์ฃผ๊ณ , LLM ์ถœ๋ ฅ(๋ณ€ํ™˜๋œ ํŒจ์น˜)์„ ๋‹ค์‹œ ์˜ˆ์ธก ๊ฐ’์œผ๋กœ ์‚ฌ์ƒ(projection)

  1. ์žฌํ”„๋กœ๊ทธ๋ž˜๋ฐ : ์–ธ์–ด์  ํ˜•ํƒœ๋กœ ๋ฐ”๊พธ์–ด์คŒ
  2. PaP(Prompt-as-Prefix)์™€ ์‚ฌ์ƒ(Projection) : PaP๋Š” โ€œํ…์ŠคํŠธ ์„ค๋ช…โ€์„ ์ ‘๋‘์‚ฌ๋กœ ๋‹ฌ์•„์ฃผ๋Š” ๊ฒƒ(์ด ๋ฐ์ดํ„ฐ๋Š” ์–ด๋–ค ๋ฐ์ดํ„ฐ์ด๊ณ , ์–ด๋–ค ํŒจํ„ด์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค), ์‚ฌ์ƒ์€ ์‹ค์ˆ˜๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ

ForecastPFN (Dooleyet al.2023):

ํ•ฉ์„ฑ(synthetic) ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋œ ์ตœ์ดˆ์˜ zero-shot ์˜ˆ์ธก ๋ชจ๋ธ. ์ƒˆ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋ฒ ์ด์ง€์•ˆ ๊ทผ์ถ”๋ก ์„ ๊ทผ์‚ฌํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ

์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์žฌํ•™์Šต ์—†์ด ๋‹จ ํ•œ๋ฒˆ์˜ ์ˆœ์ „ํŒŒ๋กœ ์˜ˆ์ธก

์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋ชจ๋ธ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ณ  ๋น ๋ฅธ ์˜ˆ์ธก ์„ฑ๋Šฅ ์ž…์ฆ.

  • ํ•ต์‹ฌ ์ฃผ์žฅ : ์ž‘์€ ๋ฐ์ดํ„ฐํฌ์ธํŠธ๋ฅผ ๊ฐ€์ง€๊ณ , ๊ธฐ์กด๋ณด๋‹ค ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธก(๋…ผ๋ฌธ ์ฃผ์žฅ 40๊ฐœ ์ดํ•˜)
  • ํ•œ๊ณ„์  : ์–ด๋–ค ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ–ˆ๋Š”๊ฐ€๊ฐ€ ์‹ค์ œ ๋„๋ฉ”์ธ๊ฐ„ ๋ถˆ์ผ์น˜๊ฐ€ ๋ฐœ์ƒํ•œ ๊ฒฝ์šฐ ๋ฆฌ์Šคํฌ๊ฐ€ ๋ฐœ์ƒํ•จ
    1. PFN : ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์œผ๋ฉด, ๊ฐ€์งœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์กฐ๊ฐœ ๋งŒ๋“ค์–ด์„œ ํ•™์Šต์‹œํ‚ค์ž๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ž‘๋™๋ฐฉ์‹์„ ๊ฐ€์ง
    1. ํ†ต๊ณ„์  ํ•จ์ˆ˜(ARIMA, ETS๋“ฑ)๋“ค์„ ํ™œ์šฉํ•˜์—ฌ, ๋ฌด์ž‘์œ„๋กœ ์กฐํ•ฉํ•ด ๊ฐ€์ƒ์˜ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑ
    2. ์ด ๊ฐ€์ƒ์˜ ๋ฐ์ดํ„ฐ๋กœ ์ •๋‹ต์„ ๋งž์ถ”๋„๋ก ํ•™์Šต
    3. ๊ฐ€์งœ ํŒจํ„ด๋“ค ์ค‘ ๋น„์Šทํ•œ ํŒจํ„ด์„ ์ฐพ์•„ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ๋น„์Šทํ•˜๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ ์˜ˆ์ธก

A decoder-only foundation model for time-series forecasting (Das et al., 2023/ICML 2024)

๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ์ฝ”ํผ์Šค(corpus)์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ decoder-only Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ. ๋‹ค์–‘ํ•œ public ๋ฐ์ดํ„ฐ์…‹์—์„œ zero-shot ์„ฑ๋Šฅ์ด SOTA ์ง€๋„ ํ•™์Šต(supervised) ๋ชจ๋ธ์— ๊ทผ์ ‘. ๋‹ค์–‘ํ•œ ์˜ˆ์ธก ์ด๋ ฅ ๊ธธ์ด, ์˜ˆ์ธก ๊ธธ์ด, ์‹œ๊ฐ„์  ์„ธ๋ถ„์„ฑ์— ์ž˜ ์ž‘๋™.

Moirai (Woo et al., 2024) โ€” Unified Training of Universal TS Forecasting Transformers

Masked Encoder ๊ธฐ๋ฐ˜์˜ Universal Time Series Forecasting Transformer. ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ๊ณ ์œ ํ•œ ๋„์ „ ๊ณผ์ œ(๊ต์ฐจ ์ฃผํŒŒ์ˆ˜ ํ•™์Šต, ๋‹ค์–‘ํ•œ ๋ณ€์ˆ˜ ์ˆ˜, ๋ถ„ํฌ ํŠน์„ฑ)๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐœ์„ . 270์–ต ๊ฐœ ์ด์ƒ์˜ ๊ด€์ธก์น˜๋ฅผ ํฌํ•จํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ์‹œ๊ณ„์—ด ์•„์นด์ด๋ธŒ(LOTSA)๋กœ ํ›ˆ๋ จ. zero-shot ์˜ˆ์ธก์—์„œ full-shot ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๊ฑฐ๋‚˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.

BIN (Binning in Time-Series) ์‹œ๊ณ„์—ด ์œˆ๋„์šฐ ๋‚ด์˜ ์—ฐ์†์ ์ธ ์ˆ˜์น˜๋ฅผ ์ด์‚ฐ์ ์ธ ๊ตฌ๊ฐ„(Bin)์œผ๋กœ ๋‚˜๋ˆ„์–ด ํ† ํฐํ™” ํ•˜๋Š” ๊ธฐ๋ฒ•

  • ๊ฐ•์  : ์ˆ˜์น˜ ๋ฐ์ดํ„ฐ์˜ ์Šค์ผ€์ผ ๋ฌธ์ œ๋ฅผ ์™„ํ™”, LLM์— ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  • ๋‹จ์  : ๊ตฌ๊ฐ„ ๊ฐœ์ˆ˜๋‚˜, ๊ฒฝ๊ณ„ ์„ค์ • ์ „๋žต์— ๋”ฐ๋ผ ์ •๋ณด ์†์‹ค ๊ฐ€๋Šฅ

๊ฒฐ๋ก 

(์—†์Œ)



๐Ÿ”ฌ ํ•ต์‹ฌ

๐Ÿ“š 3.1. ์‹œ๊ณ„์—ด ํ† ํฐํ™”

๋ฒˆ์—ญ

์˜ˆ์ธก ๊ตฌ๊ฐ„์ด $H$์ธ ์‹œ๊ณ„์—ด $x_{1:C+H} = [x_1, \dots, x_{C+H}]$๋ฅผ ๊ณ ๋ คํ•ด ๋ด…์‹œ๋‹ค. ์—ฌ๊ธฐ์„œ ์ฒ˜์Œ $C$๊ฐœ์˜ ์‹œ์ ์€ ๊ณผ๊ฑฐ ๋งฅ๋ฝ(historical context)์„ ๊ตฌ์„ฑํ•˜๊ณ , ๋‚˜๋จธ์ง€ $H$๊ฐœ๋Š” ์˜ˆ์ธก ๊ตฌ๊ฐ„(forecast horizon)์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์€ ์œ ํ•œํ•œ ์–ดํœ˜ ์ง‘ํ•ฉ์˜ ํ† ํฐ์œผ๋กœ ์ž‘๋™ํ•˜๋ฏ€๋กœ, ์ด๋ฅผ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ์‚ฌ์šฉํ•˜๋ ค๋ฉด ๊ด€์ธก๊ฐ’ $x_i \in \mathbb{R}$์„ ์œ ํ•œํ•œ ํ† ํฐ ์ง‘ํ•ฉ์œผ๋กœ ๋งคํ•‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋จผ์ € ๊ด€์ธก๊ฐ’์„ ์Šค์ผ€์ผ๋งํ•œ ํ›„ ๊ณ ์ •๋œ ์ˆ˜์˜ ๊ตฌ๊ฐ„(bin)์œผ๋กœ ์–‘์žํ™”ํ•ฉ๋‹ˆ๋‹ค.

์Šค์ผ€์ผ๋ง

์‹œ๊ณ„์—ด์˜ ์Šค์ผ€์ผ์€ ๋‹จ์ผ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์—์„œ๋„ ์ƒ๋‹นํžˆ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์ตœ์ ํ™”์— ์–ด๋ ค์›€์„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐœ๋ณ„ ์‹œ๊ณ„์—ด์€ ๋” ๋‚˜์€ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•ด ์ •๊ทœํ™”๋ฉ๋‹ˆ๋‹ค. Chronos์˜ ๊ฒฝ์šฐ, ์ •๊ทœํ™”์˜ ๋ชฉํ‘œ๋Š” ์‹œ๊ณ„์—ด ๊ฐ’์„ ์–‘์žํ™”์— ์ ํ•ฉํ•œ ๋ฒ”์œ„๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์ธ ์ •๊ทœํ™” ๊ธฐ๋ฒ•์€ ์‹œ๊ณ„์—ด์— ์•„ํ•€ ๋ณ€ํ™˜(affine transformation)์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, $\tilde{x}_i = (x_i - m)/s$์ž…๋‹ˆ๋‹ค. ํ‰๊ท  ์Šค์ผ€์ผ๋ง(mean scaling), ํ‘œ์ค€ ์Šค์ผ€์ผ๋ง(standard scaling), ์ตœ์†Œ-์ตœ๋Œ€ ์Šค์ผ€์ผ๋ง(min-max scaling)๊ณผ ๊ฐ™์€ ์—ฌ๋Ÿฌ ์ธ๊ธฐ ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ์‹์€ $m$๊ณผ $s$๋ฅผ ์ ์ ˆํžˆ ์„ ํƒํ•จ์œผ๋กœ์จ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ €ํฌ๋Š” ํ‰๊ท  ์Šค์ผ€์ผ๋ง์„ ์„ ํƒํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์‹ค์ œ ์‹œ๊ณ„์—ด ์‘์šฉ์— ํ”ํžˆ ์‚ฌ์šฉ๋˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ํšจ๊ณผ์ ์ธ ๊ฒƒ์œผ๋กœ ์ž…์ฆ๋œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค(Salinas et al., 2020; Rabanser et al., 2020). ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹๋„ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ตœ์†Œํ•œ์˜ ๋ณ€๊ฒฝ๋งŒ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ‰๊ท  ์Šค์ผ€์ผ๋ง์˜ ๋งค๋ ฅ์ ์ธ ํŠน์ง•์€ ์‹œ๊ณ„์—ด์˜ $0$ ๊ฐ’์„ ๋ณด์กดํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ $0$ ๊ฐ’์€ ์ข…์ข… ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์ค‘์š”ํ•˜๋ฉฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ์ œํ’ˆ์˜ ํŒ๋งค๋Ÿ‰ $0$ ๋˜๋Š” ๋ฐค์˜ ํƒœ์–‘ ์—๋„ˆ์ง€ ๋ฐœ์ „๋Ÿ‰ $0$๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

ํ‰๊ท  ์Šค์ผ€์ผ๋ง์€ ๊ณผ๊ฑฐ ๋งฅ๋ฝ(historical context) ๋‚ด ์ ˆ๋Œ€๊ฐ’๋“ค์˜ ํ‰๊ท ์œผ๋กœ ๊ฐœ๋ณ„ ์‹œ๊ณ„์—ด ํ•ญ๋ชฉ์„ ์ •๊ทœํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ด๋Š” $m = 0$์ด๊ณ  $s = \frac{1}{C} \sum_{i=1}^Cx_i$๋กœ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
์–‘์žํ™”

์Šค์ผ€์ผ๋ง๋œ ์‹œ๊ณ„์—ด $\tilde{x}_{1:C+H} = [\tilde{x}_1, \dots, \tilde{x}C, \dots, \tilde{x}{C+H}]$๋Š” ์—ฌ์ „ํžˆ ์‹ค์ˆ˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์ง์ ‘ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹ค์ˆ˜ ๊ฐ’์„ ์ด์‚ฐ์ ์ธ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ์–‘์žํ™”๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ˜•์‹์ ์œผ๋กœ, ์‹ค์ˆ˜์„  ์ƒ์—์„œ $B$๊ฐœ์˜ ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์  $c_1 < \dots < c_B$์™€ ์ด๋“ค์„ ๊ตฌ๋ถ„ํ•˜๋Š” $B-1$๊ฐœ์˜ ๊ฒฝ๊ณ„ $b_i$ $(c_i < b_i < c_{i+1})$๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ $i \in {1, \dots, B-1}$์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์–‘์žํ™” ํ•จ์ˆ˜ $q: \mathbb{R} \to {1, 2, \dots, B}$์™€ ์—ญ์–‘์žํ™” ํ•จ์ˆ˜ $d: {1, 2, \dots, B} \to \mathbb{R}$๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

\[q(x) = \begin{cases} 1 & \text{if } -\infty \le x < b_1, \ 2 & \text{if } b_1 \le x < b_2, \ \dots \ B & \text{if } b_{B-1} \le x < \infty, \end{cases} \quad \text{and} \quad d(j) = c_j,\]

๊ฐ๊ฐ์— ๋Œ€ํ•ด. ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์ ๊ณผ ๊ฒฝ๊ณ„์˜ ์œ„์น˜๋Š” ๋ฐ์ดํ„ฐ ์ข…์†์ (data-dependent)์ด๊ฑฐ๋‚˜ ๊ท ์ผ(uniform)ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(Rabanser et al., 2020). ๋ฐ์ดํ„ฐ ์ข…์†์  ๊ตฌ๊ฐ„ํ™”์˜ ํ•œ ์ข…๋ฅ˜์ธ ๋ถ„์œ„์ˆ˜ ๊ตฌ๊ฐ„ํ™”(quantile binning)๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐํฌ์ธํŠธ์˜ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜(CDF)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฐ ๊ตฌ๊ฐ„์— ๋Œ€๋žต์ ์œผ๋กœ ๋™์ผํ•œ ์ˆ˜์˜ ๋ฐ์ดํ„ฐํฌ์ธํŠธ๊ฐ€ ํ• ๋‹น๋˜๋„๋ก ๊ตฌ๊ฐ„์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, ๊ท ์ผ ๊ตฌ๊ฐ„ํ™”๋Š” ๊ตฌ๊ฐ„ $[c_1, c_B]$ ๋‚ด์—์„œ ๊ท ์ผํ•˜๊ฒŒ ๊ฐ„๊ฒฉ์ด ๋–จ์–ด์ง„ ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์ ์„ ์„ ํƒํ•˜๋ฉฐ, ๊ตฌ๊ฐ„ ๊ฒฝ๊ณ„๋Š” ์—ฐ์†๋œ ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์ ๋“ค ์‚ฌ์ด์˜ ์ค‘๊ฐ„ ์ง€์ ์— ์œ„์น˜ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, $b_i = \frac{c_i + c_{i+1}}{2}$ for $i \in {1, \dots, B-1}$์ž…๋‹ˆ๋‹ค.

๋ณด์ง€ ๋ชปํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ’ ๋ถ„ํฌ๋Š” ํ›ˆ๋ จ ๋ถ„ํฌ์™€ ์ƒ๋‹นํžˆ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ €ํฌ๋Š” ์‹คํ—˜์—์„œ ๊ท ์ผ ๊ตฌ๊ฐ„ํ™”๋ฅผ ์„ ํƒํ–ˆ์ง€๋งŒ ๋‹ค๋ฅธ ์–‘์žํ™” ๊ธฐ๋ฒ•๋„ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ์–‘์žํ™” ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋…ผ์˜๋Š” Rabanser et al. (2020)์„ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์˜ ์ž ์žฌ์ ์ธ ํ•œ๊ณ„๋Š” ์˜ˆ์ธก ๋ฒ”์œ„๊ฐ€ $[c_1, c_B]$๋กœ ์ œํ•œ๋˜์–ด, ๊ฐ•ํ•œ ์ถ”์„ธ๋ฅผ ๊ฐ€์ง„ ์‹œ๊ณ„์—ด์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์ด ์ด๋ก ์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋‚ด์šฉ์€ ์„น์…˜ 5.7์—์„œ ์‹ค์ œ์ ์ธ ๋งฅ๋ฝ์—์„œ ๋” ์ž์„ธํžˆ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

์‹œ๊ณ„์—ด ํ† ํฐ ${1, 2, \dots, B}$ ์™ธ์—๋„, ์–ธ์–ด ๋ชจ๋ธ์—์„œ ํ”ํžˆ ์‚ฌ์šฉ๋˜๋Š” ๋‘ ๊ฐœ์˜ ํŠน์ˆ˜ ํ† ํฐ์ธ PAD์™€ EOS๋ฅผ ์‹œ๊ณ„์—ด ์–ดํœ˜ ์ง‘ํ•ฉ $V_{ts}$์— ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. PAD ํ† ํฐ์€ ๋ฐฐ์น˜ ๊ตฌ์„ฑ์„ ์œ„ํ•ด ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด์„ ๊ณ ์ •๋œ ๊ธธ์ด๋กœ ํŒจ๋”ฉ(padding)ํ•˜๊ฑฐ๋‚˜ ๋ˆ„๋ฝ๋œ ๊ฐ’์„ ๋Œ€์ฒดํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

EOS ํ† ํฐ์€ ์–‘์žํ™”๋˜๊ณ  ํŒจ๋”ฉ๋œ ์‹œ๊ณ„์—ด์— ์ถ”๊ฐ€๋˜์–ด ์‹œํ€€์Šค์˜ ๋์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด์˜ ๊ฒฝ์šฐ EOS ํ† ํฐ ์‚ฌ์šฉ์ด ์—„๊ฒฉํ•˜๊ฒŒ ํ•„์ˆ˜์ ์ด์ง€๋Š” ์•Š์ง€๋งŒ, ์ธ๊ธฐ ์žˆ๋Š” ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•œ ํ•™์Šต ๋ฐ ์ถ”๋ก ์„ ํŽธ๋ฆฌํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. $V_{ts}$์˜ ํ† ํฐ ์‹œํ€€์Šค๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ฐ ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ ๋ชจ๋‘์—์„œ ์–ธ์–ด ๋ชจ๋ธ์— ์˜ํ•ด ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌ๋  ์ˆ˜ ์žˆ์–ด, ์ผ๋ฐ˜์ ์ธ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋ง์—์„œ ์ผ๋ฐ˜์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์š”์ผ, ์—ฐ์ค‘ ์ฃผ์ฐจ ๋“ฑ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ํ†ตํ•ด ์‹œ๊ฐ„ ๋ฐ ์ฃผํŒŒ์ˆ˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—ญ์„ค์ ์œผ๋กœ ๋“ค๋ฆด ์ˆ˜ ์žˆ์ง€๋งŒ, Chronos์—์„œ๋Š” ์‹œ๊ฐ„ ๋ฐ ์ฃผํŒŒ์ˆ˜ ์ •๋ณด๋ฅผ ๋ฌด์‹œํ•˜๊ณ  โ€œ์‹œ๊ณ„์—ดโ€์„ ๋‹จ์ˆœํžˆ ์‹œํ€€์Šค๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ฃผ๋กœ ์ธ์ฝ”๋”-๋””์ฝ”๋” T5 ๋ชจ๋ธ(Raffel et al., 2020)์˜ ๋ณ€ํ˜•์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ, GPT-2(Radford et al., 2019) ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ๋กœ ์‰ฝ๊ฒŒ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์—๋Š” ์ˆ˜์ •์ด ํ•„์š”ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์–‘์žํ™”์— ์‚ฌ์šฉ๋œ ๋นˆ์˜ ์ˆ˜์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๊ณ  ์›๋ž˜ ์–ธ์–ด ๋ชจ๋ธ์˜ ์–ดํœ˜ ํฌ๊ธฐ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋Š” $|V_{ts}|$๋กœ ์–ดํœ˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ๋งŒ ์ œ์™ธํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์–ดํœ˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ์ž˜๋ผ๋‚ด๊ฑฐ๋‚˜(๋˜๋Š” ํ™•์žฅํ•˜๋Š” ๊ฒƒ)์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ

์˜ˆ์ธก ๊ตฌ๊ฐ„์ด $H$์ธ ์‹œ๊ณ„์—ด $x_{1:C+H} = [x_1, \dots, x_{C+H}]$์—์„œ ์ฒ˜์Œ C๊ฐœ์˜ ์‹œ์ ์€ ๊ณผ๊ฑฐ ๋งฅ๋ฝ์„ ๊ตฌ์„ฑํ•˜๊ณ , ๋‚˜๋จธ์ง€ $H$๊ฐœ๋Š” ์—์ธก ๊ตฌ๊ฐ„์„ ๋‚˜ํƒ€๋ƒ„ ์–ธ์–ด ๋ชจ๋ธ์€ ์œ ํ•œํ•œ ์–ดํœ˜ ์ง‘ํ•ฉ์˜ ํ† ํฐ์œผ๋กœ ์ž‘๋™ํ•˜๋ฏ€๋กœ, ์ด๋ฅผ ์‹œ๊ณ„์—ด์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹œ๊ณ„์—ด ๊ด€์ธก๊ฐ’์„ $x_i \in \mathbb{R}$์„ ์œ ํ•œํ•œ ํ† ํฐ ์ง‘ํ•ฉ์œผ๋กœ ๋งคํ•‘ํ•˜์—ฌ์•ผ ํ•จ

์Šค์ผ€์ผ๋ง

์‹œ๊ณ„์—ด์˜ ์Šค์ผ€์ผ์€ ๋‹จ์ผ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์—์„œ๋„ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐœ๋ณ„ ์‹œ๊ณ„์—ด์„ ๋ชจ๋ธ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•ด ์ •๊ทœํ™”๋ฅผ ์ง„ํ–‰ํ•˜๋ฉฐ, Chronos์˜ ๊ฒฝ์šฐ ์ •๊ทœํ™”์˜ ๋ชฉํ‘œ๋Š” ์–‘์žํ™”์— ์ ํ•ฉํ•œ ๋ฒ”์œ„๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ฒƒ ์‹œ๊ณ„์—ด ์ •๊ทœํ™” ๊ธฐ๋ฒ•

  • ์•„ํ•€ ๋ณ€ํ™˜(affine transformation)์„ ์ ์šฉํ•˜์—ฌ, $\tilde{x}_i = (x_i - m)/s$ ๋ฅผ ๋งŒ๋“ ๋‹ค.
  • ์ด๋Š” mean, standard, min-max sacling๋“ฑ ์—ฌ๋Ÿฌ ์ธ๊ธฐ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ์‹์„ m๊ณผ s๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. Chronos์—์„œ๋Š” mean saciling์„ ํƒํ–ˆ๊ณ  ์ด๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ํšจ๊ณผ์ ์ธ๊ฒƒ์œผ๋กœ ์ž…์ฆ๋œ โ€œ(Salinas et al., 2020; Rabanser et al., 2020)โ€๋…ผ๋ฌธ์„ ๊ทผ๊ฑฐ๋กœ ํ•จ, ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ ์ ‘๊ทผ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ตœ์†Œํ•œ์˜ ์ˆ˜์ •๋งŒ ๊ฑฐ์น˜๋ฉด ๋จ ํ‰๊ท  ์Šค์ผ€์ผ๋ง์˜ ๋งค๋ ฅ์ ์ธ ๋ถ€๋ถ„์€ 0๊ฐ’์„ ๋ณด์กดํ•˜์—ฌ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์˜ 0๋ผ๋ฆฌ ์ผ์น˜์‹œํ‚ค๋Š” ์—ญํ• ์„ ํ•จ e.g. ์ œํ’ˆ ํŒ๋งค๋Ÿ‰ 0 = ๋ฐค์˜ ํƒœ์–‘ ์—๋„ˆ์ง€๋Ÿ‰ 0

$m = 0$์ด๊ณ  $s = \frac{1}{C} \sum_{i=1}^C |x_i|$ ์ด ๋‚˜์˜จ ๊ณ„๊ธฐ

  • ๋ณดํ†ต m์— ํ‰๊ท ์„ ๋†“์œผ๋ฉด, ์ค‘์‹ฌ์ด 0์œผ๋กœ ์ด๋™ํ•˜๊ฒŒ ๋จ, ๊ทธ๋Ÿฌ๋‚˜ Chronos์—์„œ๋Š” ๋ฐ์ดํ„ฐ์˜ ์ ˆ๋Œ€์ ์ธ ํฌ๊ธฐ๋‚˜ โ€˜๋ถ€ํ˜ธโ€™์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•˜์—ฌ m=0์œผ๋กœ ๋‘ 
  • ๊ณผ๊ฑฐ ๋ฌธ๋งฅ C๊ฐœ์˜ ๋ฐ์ดํ„ฐํฌ์ธํŠธ ์ ˆ๋Œ€๊ฐ’์˜ ํ‰๊ท ์œผ๋กœ ๊ฐ’์ด ์•„์ฃผํฐ๊ฑธ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ด๊ณ , ๊ฐ’์ด ์•„์ฃผ ์ž‘์€๊ฑธ ํšจ๊ณผ์ ์œผ๋กœ ๋Š˜๋ฆฌ๋Š” ์—ญํ•  ๊ฒฐ๋ก ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ์ค‘์‹ฌ์ถ•์„ ๊ฑด๋“œ๋ฆฌ์ง€ ์•Š์€์ฑ„, ์ „์ฒด์ ์ธ ๋ฉ์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š”๋ฐฉ์‹
์–‘์žํ™”

์Šค์ผ€์ผ๋ง๋œ ์‹œ๊ณ„์—ด์€ ์—ฌ์ „ํžˆ $\tilde{x}{1:C+H} = [\tilde{x}_1, \dots, \tilde{x}{C}, \dots, \tilde{x}_{C+H}]$ ์‹ค์ˆ˜ ๊ฐ’์„ ๊ฐ€์ ธ์„œ ์–ธ์–ด ๋ชจ๋ธ์— ๋„ฃ์„ ์ˆ˜ ์—†์Œ.

๋”ฐ๋ผ์„œ, B๊ฐœ์˜ ๊ตฌ๊ฐ„์„ ๋‚˜๋ˆ„๋Š” B๊ฐœ์˜ ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์  $c_1 < \dots < c_B$, ์ด๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” B-1๊ฐœ์˜ ๊ฒฝ๊ณ„ $b_i$ $(c_i < b_i < c_{i+1})$๋ฅผ ์„ ํƒํ•œ๋‹ค. ์ด๋•Œ i ๋Š” 1~(B-1)๊นŒ์ง€์ด๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ์–‘์žํ™”ํ•จ์ˆ˜์™€ ์—ญ์–‘์žํ™” ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ ๋œ๋‹ค.(q:์–‘์žํ™”, d:์—ญ์–‘์žํ™”) $q: \mathbb{R} \to {1, 2, \dots, B}$, $d: {1, 2, \dots, B} \to \mathbb{R}$ \(q(x) = \begin{cases} 1 & \text{if } -\infty \le x < b_1, \ 2 & \text{if } b_1 \le x < b_2, \ \dots \ B & \text{if } b_{B-1} \le x < \infty, \end{cases} \quad \text{and} \quad d(j) = c_j,\) ๊ฐ๊ฐ์— ๋Œ€ํ•ด ๊ตฌ๊ฐ„์˜ ์ค‘์‹ฌ์  $c_i$์™€ ๊ฒฝ๊ณ„์˜ ์œ„์น˜ $b_i$๋Š” ๋ฐ์ดํ„ฐ ์ข…์†์ ์ด๊ฑฐ๋‚˜ ๊ท ์ผํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๋ถ„์œ„์ˆ˜ ๊ตฌ๊ฐ„ํ™” : ๋ฐ์ดํ„ฐ ์ข…์†์  ๊ตฌ๊ฐ„ํ™” ์ค‘ ํ•œ ์ข…๋ฅ˜๋กœ์„œ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋ฐ์ดํ„ฐํฌ์ธํŠธ์˜ CDF๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ๊ฐ ๊ตฌ๊ฐ„์— ๋Œ€๋žต์ ์œผ๋กœ ๋™์ผํ•œ ์ˆ˜์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ํ• ๋‹น๋˜๋„๋ก ํ•จ.
  • ๊ท ์ผ ๊ตฌ๊ฐ„ํ™” : $[c_1, c_B]$ ์—์„œ ๊ท ์ผํ•˜๊ฒŒ ๊ฐ„๊ฒฉ์ด ๋–จ์–ด์ง„ ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์  $c_i$๋ฅผ ์„ ํƒํ•˜๋ฉฐ, ๊ฐ ๊ตฌ๊ฐ„ ๊ฒฝ๊ณ„๋Š” ๊ตฌ๊ฐ„ ์ค‘์‹ฌ์ ์˜ ์ค‘๊ฐ„ ์ง€์ ์— ์œ„์น˜ $b_i = \frac{c_i + c_{i+1}}{2}$ for $i \in {1, \dots, B-1}$ Chronos์—์„œ๋Š” ๊ท ์ผ ๊ตฌ๊ฐ„ํ™”๋ฅผ ์„ ํƒํ•˜์—ฌ, ๋ณด์ง€ ๋ชปํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ›ˆ๋ จ ๋ถ„ํฌ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋Š”์ ์„ ๊ณ ๋ คํ•˜์˜€๋‹ค. ์ด ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋Š” ์‹œ๊ณ„์—ด์˜ ์˜ˆ์ธก๋ฒ”์œ„๋ฅผ $[c_1, c_B]$๋‚ด๋กœ ์ œํ•œ์‹œ์ผœ, ๊ฐ•ํ•œ ์ถ”์„ธ๋ฅผ ๊ฐ€์ง„ ์‹œ๊ณ„์—ด์„ ๋ชจ๋ธ๋ง ํ•˜๋Š”๊ฒƒ์˜ ์ด๋ก ์ ์œผ๋กœ ์–ด๋ ต๋‹ค๋Š”๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์‹œ๊ณ„์—ด ํ† ํฐ $[1:B]$ ์ด์™ธ์—๋„, ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ํŠน์ˆ˜ ํ† ํฐ PAD, EOS๋ฅผ ์ถ”๊ฐ€ํ•˜์˜€์Œ

  • PAD : ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด์„ ๊ณ ์ •๋œ ๊ธธ์ด๋กœ ํŒจ๋”ฉํ•˜๊ฑฐ๋‚˜, ๋ˆ„๋ฝ๋œ ๊ฐ’์„ ๋Œ€์ฒด
  • EOS : ์‹œํ€€์Šค์˜ ๋์„ ๋‚˜ํƒ€๋ƒ„, ์‹œ๊ณ„์—ด์˜ ๊ฒฝ์šฐ EOS ํ† ํฐ ์‚ฌ์šฉ์— ๋Œ€ํ•ด ์—„๊ฒฉํ•˜์ง€ ์•Š์ง€๋งŒ, ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ• ๋•Œ ํ•™์Šต ๋ฐ ์ถ”๋ก ์„ ์‰ฝ๊ฒŒ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๊ฐ€ํ•จ. ์ด ๋‘ ํ† ํฐ์„ ์‹œ๊ณ„์—ด ์–ดํœ˜์ง‘ํ•ฉ $V_{ts}$์— ํฌํ•จํ•˜์—ฌ ์ผ๋ฐ˜์ ์ธ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ ์‹œ๊ณ„์—ด์„ ๋ชจ๋ธ๋ง ํ•˜๋Š”๊ฒƒ์€ ์š”์ผ, ์ฃผ์ฐจ ๋“ฑ๋“ฑ ํŠน์ง•์„ ํŒŒ์•…ํ•ด ์‹œ๊ฐ„ ๋ฐ ์ฃผํŒŒ์ˆ˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ธ๋ฐ, Chronos์—์„œ๋Š” ์‹œ๊ฐ„ ๋ฐ ์ฃผํŒŒ์ˆ˜ ์ •๋ณด๋ฅผ ๋ฌด์‹œํ•˜๊ณ  โ€œ์‹œ๊ณ„์—ดโ€์„ ๋‹จ์ˆœ ์‹œํ€€์Šค๋กœ ์ทจ๊ธ‰ํ•œ๋‹ค. Chronos๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” T5 ๋ชจ๋ธ(Raffel et al., 2020)์˜ ๋ณ€ํ˜•์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, ๋‹ค๋ฅธ ๋ชจ๋ธ๋กœ ๋ณ€ํ˜•ํ• ๋•Œ์—๋Š” $|V_{ts}|$์˜ ์–ดํœ˜ ํฌ๊ธฐ๋งŒ ์กฐ์ •ํ•˜๋ฉด ๋œ๋‹ค.(์–ดํœ˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•˜๋Š”๊ฑด ์–ธ์–ด ๋ชจ๋ธ์„ ์ˆ˜์ •ํ•˜๋Š”๊ฒƒ๋˜ํ•œ ํฌํ•จํ•œ๋‹ค. ๋ ˆ์ด์–ด์ˆ˜ ๋“ฑ๋“ฑ) ์ถ”๊ฐ€์ ์œผ๋กœ, GPT-2(Radford et al., 2019) ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ํ•ด๋‹น ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ๋กœ ์‰ฝ๊ฒŒ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋‹ค.

ํฌ์ธํŠธ

์•„ํ•€ ๋ณ€ํ™˜(affine transformation) \(\tilde{x}_i = (x_i - m)/s\) ํ‰ํ–‰์ด๋™, ์„ ํ˜•๋ณ€ํ™˜์„ ๊ฒฐํ•ฉํ•œ๊ฒƒ์œผ๋กœ ์‰ฝ๊ฒŒ ๋งํ•ด, ๊ทธ๋ž˜ํ”„๋ฅผ ๋ฐ€๊ฑฐ๋‚˜ ๋‹น๊ธฐ๊ณ (๋”ํ•˜๊ธฐ, ๋บด๊ธฐ) / ๋Š˜๋ฆฌ๊ณ  ์ค„์ด๋Š”(๊ณฑํ•˜๊ณ , ๋‚˜๋ˆ„๊ณ ) ๋ชจ๋“  ํ–‰์œ„๋ฅผ ์˜๋ฏธํ•œ๋‹ค


๐Ÿ“š 4. Data Augmentation

๋ฒˆ์—ญ

4 ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•

๊ณต๊ฐœ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ๊ณผ ์–‘์€ WikiText-103 (Merity et al., 2016), C4 (Raffel et al., 2020), The Pile (Gao et al., 2020)๊ณผ ๊ฐ™์€ ํ’๋ถ€ํ•˜๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋„๋ฉ”์ธ๊ณผ ๋น„๊ตํ•  ๋•Œ ๋ฏธ๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ๊ฐ€์ง„ ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜๋Š” ์ œ๋กœ์ƒท ์˜ˆ์ธก(zero-shot forecasting)์„ ์œ„ํ•œ ๋ชจ๋ธ ํ›ˆ๋ จ์— ์–ด๋ ค์›€์„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฏน์Šค์—… ์ฆ๊ฐ•(mixup augmentations)์„ ์ƒ์„ฑํ•˜๊ณ  ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ์„ ๋ณด์™„ํ•จ์œผ๋กœ์จ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ๊ฒƒ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

4.1 TSMixup: ์‹œ๊ณ„์—ด ๋ฏน์Šค์—…

๋ฏน์Šค์—…(Mixup, Zhang et al., 2017)์€ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋งฅ๋ฝ์—์„œ ์ œ์•ˆ๋œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฌด์ž‘์œ„ ์ด๋ฏธ์ง€ ์Œ๊ณผ ํ•ด๋‹น ๋ ˆ์ด๋ธ”์˜ ๋ณผ๋ก ์กฐํ•ฉ(convex combinations)์„ ์ƒ์„ฑํ•˜์—ฌ, ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์•”๊ธฐ(memorization) ๋ฐ ๊ณผ์ ํ•ฉ(overfitting)๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค(Carmona et al., 2021; Zhou et al., 2023b)์€ ๋ฏน์Šค์—…์„ ์‹œ๊ณ„์—ด ๋„๋ฉ”์ธ์œผ๋กœ ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๋ฏน์Šค์—…์˜ ์•„์ด๋””์–ด๋ฅผ ๋‘ ๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐํฌ์ธํŠธ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” TSMixup์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, TSMixup์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํŠน์ • ๊ธธ์ด $l \sim U{l_{\min}, l_{\max}}$์˜ ์‹œ๊ณ„์—ด $k \sim U{1, K}$๊ฐœ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์ด๋ฅผ ์Šค์ผ€์ผ๋งํ•œ ํ›„ ๋ณผ๋ก ์กฐํ•ฉ์„ ์ทจํ•ฉ๋‹ˆ๋‹ค.

\[\tilde{x}*{TSMixup}^{1:l} = \sum*{i=1}^{k} \lambda_i \tilde{x}^{(i)}_{1:l}\]

์—ฌ๊ธฐ์„œ $\tilde{x}^{(i)}_{1:l}$๋Š” $i$๋ฒˆ์งธ ์Šค์ผ€์ผ๋ง๋œ ์‹œ๊ณ„์—ด์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด์€ ํ˜ผํ•ฉ ์ „์— ์Šค์ผ€์ผ๋ง๋˜์–ด, ์ž‘๊ณ  ํฐ ๊ฐ’์„ ๊ฐ€์ง„ ์‹œ๊ณ„์—ด์ด ํ˜ผํ•ฉ ๊ณผ์ •์—์„œ ๋™๋“ฑํ•œ ์ค‘์š”๋„๋ฅผ ๊ฐ–๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐํ•ฉ ๊ฐ€์ค‘์น˜ $[\lambda_1, \dots, \lambda_k]$๋Š” ์Šค์นผ๋ผ ๋†๋„ ํŒŒ๋ผ๋ฏธํ„ฐ $\alpha$๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ ๋Œ€์นญ ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ $\mathrm{Dir}(\alpha)$์—์„œ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค. TSMixup์˜ ์™„์ „ํ•œ ์˜์‚ฌ ์ฝ”๋“œ๋Š” ๋ถ€๋ก A์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ 1์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ, TSMixup์€ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด์˜ ํŒจํ„ด์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 2๋Š” TSMixup์œผ๋กœ ์ƒ์„ฑ๋œ ์ฆ๊ฐ•์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ

๋‹ค์–‘ํ•œ ํŒจํ„ด์ด ์–ด๋–ป๊ฒŒ ํ˜ผํ•ฉ๋˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

4.2 KernelSynth: ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ด์šฉํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

TSMixup์ด ํŒจํ„ด ๋‹ค์–‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค์ง€๋งŒ, ํŠนํžˆ ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ์ ์ผ ๋•Œ ์ผ๋ฐ˜์ ์ธ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ธฐ์—๋Š” ์—ฌ์ „ํžˆ ๋ถˆ์ถฉ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์„ ์ถ”๊ฐ€๋กœ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค(GP)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ธ KernelSynth๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. KernelSynth๋Š” Automatic Statistician (Duvenaud et al., 2013)์—์„œ ์˜๊ฐ์„ ๋ฐ›์•˜์œผ๋ฉฐ, ์—ฌ๊ธฐ์„œ GP ์ปค๋„ ๊ณต๊ฐ„์— ๋Œ€ํ•œ ํ•ฉ์„ฑ ํƒ์ƒ‰์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์‹œ๊ณ„์—ด์˜ ๊ตฌ์กฐ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ๊ณผ์ •์˜ ์—ญ์„ ์‚ฌ์šฉํ•˜์—ฌ โ€” GP ์ปค๋„์„ ๋ฌด์ž‘์œ„๋กœ ํ•ฉ์„ฑํ•˜์—ฌ ์ƒˆ๋กœ์šด ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

GP๋Š” ํ‰๊ท  ํ•จ์ˆ˜ $m(t)$์™€ ์–‘์˜ ์ •๋ถ€ํ˜ธ ์ปค๋„ $\kappa(t, tโ€™)$์— ์˜ํ•ด ์ •์˜๋˜๋Š” ํ•จ์ˆ˜์— ๋Œ€ํ•œ ๋ถ„ํฌ์ด๋ฉฐ, ์—ฌ๊ธฐ์„œ $t \in \mathbb{R}$๋Š” ๋„๋ฉ”์ธ์ž…๋‹ˆ๋‹ค. ์ปค๋„์€ ์ž…๋ ฅ ๋„๋ฉ”์ธ์˜ ์ž„์˜์˜ ๋‘ ์  $(t, tโ€™)$์—์„œ์˜ ํ•จ์ˆ˜ ๊ฐ’์˜ ๊ฒฐํ•ฉ ๋ณ€๋™์„ฑ์„ ์ •์˜ํ•˜๋Š” ๊ณต๋ถ„์‚ฐ ํ•จ์ˆ˜๋ฅผ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. ์ปค๋„์„ ์ ์ ˆํ•˜๊ฒŒ ์„ ํƒํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ณธ์ ์ธ ์‹œ๊ณ„์—ด ํŒจํ„ด์„ ์ •์˜ํ•˜๋Š” ๊ธฐ์ € ์ปค๋„๋“ค์˜ ์ปค๋„ ๋ฑ…ํฌ $K$๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ์ถ”์„ธ๋ฅผ ์œ„ํ•œ ์„ ํ˜• ์ปค๋„, ๋ถ€๋“œ๋Ÿฌ์šด ๊ตญ์†Œ ๋ณ€๋™์„ ์œ„ํ•œ RBF ์ปค๋„, ์ผ๋ฐ˜์ ์ธ ์‹œ๊ณ„์—ด ์ฃผํŒŒ์ˆ˜์—์„œ ๋ฐœ๊ฒฌ๋˜๋Š” ๊ณ„์ ˆ์„ฑ์„ ์œ„ํ•œ ์ฃผ๊ธฐ์  ์ปค๋„์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ์ปค๋„ $\tilde{\kappa}(t, tโ€™)$์€ $K$์—์„œ $j \sim U{1, J}$๊ฐœ์˜ ์ปค๋„์„ ๋ณต์› ์ถ”์ถœ(with replacement)๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ์ด ์ปค๋„๋“ค์„ ๋ฌด์ž‘์œ„ ์ดํ•ญ ์—ฐ์‚ฐ์ธ $+$ ๋˜๋Š” $\times$๋ฅผ ํ†ตํ•ด ๊ฒฐํ•ฉํ•˜์—ฌ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์€ GP ์‚ฌ์ „ ๋ถ„ํฌ $GP(m(t) = 0, \tilde{\kappa}(t, tโ€™))$์—์„œ ๊ธธ์ด $l_{syn}$์˜ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜์—ฌ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋ถ€๋ก A์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ 2๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

์ตœ์ข… ์ปค๋„์ธ $\tilde{\kappa}(t, tโ€™)$์€ $K$์—์„œ $j \sim U{1, J}$ ์ปค๋„์„ ๋ณต์› ์ถ”์ถœํ•˜์—ฌ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์ด ์ปค๋„๋“ค์„ ๋ฌด์ž‘์œ„ ์ด์ง„ ์—ฐ์‚ฐ์ธ $+$ ๋˜๋Š” $\times$๋ฅผ ํ†ตํ•ด ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์€ GP ์‚ฌ์ „ ๋ถ„ํฌ์ธ $GP(m(t) = 0, \tilde{\kappa}(t, tโ€™))$๋กœ๋ถ€ํ„ฐ ๊ธธ์ด $l_{syn}$์˜ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜์—ฌ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋ถ€๋ก A์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ 2๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค. ๊ทธ๋ฆผ 3์€ KernelSynth์—์„œ ์‚ฌ์šฉ๋œ ์ด ์ƒ์„ฑ ๊ณผ์ •์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ฐ„๋‹จํ•œ ๊ธฐ์ € ์ปค๋„์˜ ์กฐํ•ฉ์œผ๋กœ๋ถ€ํ„ฐ ์–ด๋–ป๊ฒŒ ๋ณต์žกํ•œ ํŒจํ„ด์„ ๊ฐ€์ง„ ์‹œ๊ณ„์—ด์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ž์—ฐ์–ด ๋ชจ๋ธ์— ๋น„ํ•ด์„œ ํ„ฑ์—†์ด ๋ถ€์กฑํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ฆ๊ฐ•์„ ์ง„ํ–‰ํ•œ๋‹ค.

TSMixup

์ด๋ฏธ์ง€ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ธ Mixup์„ ์‹œ๊ณ„์—ด ๋„๋ฉ”์ธ์œผ๋กœ ํ™•์žฅํ•œ ๋ฐฉ๋ฒ•

  • Mixup : ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฌด์ž‘์œ„ ์ด๋ฏธ์ง€ ์Œ๊ณผ ํ•ด๋‹น ๋ ˆ์ด๋ธ”์˜ ๋ณผ๋ก ์กฐํ•ฉ(convex combinations)์„ ์ƒ์„ฑํ•˜์—ฌ, ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ memorization๊ณผ ๊ณผ์ ํ•ฉ์„ ์™„ํ™” ์ด๋ฅผ ๋‘ ๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐํฌ์ธํŠธ๋กœ ์ผ๋ฐ˜ํ™” ํ•˜๋Š” TSMixup์œผ๋กœ ์ˆ˜์ •ํ•˜์˜€์Œ(์ œ์•ˆ) TSMixup์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํŠน์ • ๊ธธ์ด $l \sim U{[l_{\min}, l_{\max}]}$์˜ ์‹œ๊ณ„์—ด $k \sim U[{1, K}]$๊ฐœ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์ด๋ฅผ ์Šค์ผ€์ผ๋งํ•œ ํ›„ ๋ณผ๋ก ์กฐํ•ฉ์„ ์ทจํ•œ๋‹ค.
\[\tilde{x}^{TSMixup}_{1:l} = \sum_{i=1}^{k} \lambda_i \tilde{x}^{(i)}_{1:l}\]

์—ฌ๊ธฐ์„œ $\tilde{x}^{(i)}_{1:l}$๋Š” $i$๋ฒˆ์งธ ์Šค์ผ€์ผ๋ง๋œ ์‹œ๊ณ„์—ด์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์Šค์ผ€์ผ๋ง์„ ํ†ตํ•ด์„œ ์ž‘๊ฑฐ๋‚˜ ํฐ ๊ฐ’ ๋ชจ๋‘๊ฐ€ ๋™๋“ฑํ•œ ์ค‘์š”๋„๋ฅด ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉฐ, ๊ฒฐํ•ฉ ๊ฐ€์ค‘์น˜ $[\lambda_1, \dots, \lambda_k]$๋Š” ๋””๋ฆฌํด๋ ˆ $\mathrm{Dir}(\alpha)$์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ $\alpha$๋กœ ์ƒ˜ํ”Œ๋ง ๋จ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด์„ ํ•ฉ์„ฑํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์‹œ๊ณ„์—ด์„ ๋ณด์—ฌ์ฃผ๊ฒŒ ๋จ

KernelSynth

TSMixup์ด ํŒจํ„ด์˜ ๋‹ค์–‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋ฉด, KernelSynth๋Š” ๋ถ€์กฑํ•œ ๋ฐ์ดํ„ฐ์ˆ˜๋ฅผ ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. Automatic Statistician (Duvenaud et al., 2013)์—์„œ ์˜๊ฐ์„ ๋ฐ›์•˜๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ GP ์ปค๋„ ๊ณต๊ฐ„์— ๋Œ€ํ•œ ํ•ฉ์„ฑ ํƒ์ƒ‰์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์‹œ๊ณ„์—ด์˜ ๊ตฌ์กฐ๋ฅผ ์„ค๋ช…ํ•˜๋Š”๋ฐ, ์ด ์—ญ ๊ณผ์ •์„ ์‚ฌ์šฉํ•˜์—ฌ GP์ปค๋„์„ ๋ฌด์ž‘์œ„๋กœ ํ•ฉ์„ฑํ•˜์—ฌ ์ƒˆ๋กœ์šด ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. GP

  • ํ‰๊ท  ํ•จ์ˆ˜ $m(t)$์™€ ์–‘์˜ ์ •๋ถ€ํ˜ธ ์ปค๋„ $\kappa(t, tโ€™)$์— ์˜ํ•ด ์ •์˜๋˜๋Š” ํ•จ์ˆ˜์— ๋Œ€ํ•œ ๋ถ„ํฌ ์ด๋•Œ $t \in \mathbb{R}$๋Š” ๋„๋ฉ”์ธ ์ปค๋„์€ ์ž…๋ ฅ ๋„๋ฉ”์ธ์˜ ์ž„์˜์˜ ๋‘ ์  $(t, tโ€™)$์—์„œ ํ•จ์ˆ˜ ๊ฐ’์˜ ๊ฒฐํ•ฉ ๋ณ€๋™์„ฑ์„ ์ •์˜ํ•˜๋Š” ๊ณต๋ถ„์‚ฐ ํ•จ์ˆ˜๋ฅผ ์ง€์ •ํ•œ๋‹ค. ์ด๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ์„ ํƒํ•˜๋ฏ•๋กœ์„œ ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ๋ณธ์ ์ธ ์‹œ๊ณ„์—ด ํŒจํ„ด์„ ์ •์˜ํ•˜๋Š” ๊ธฐ์ € ์ปค๋„๋“ค์˜ ์ปค๋„ ๋ฑ…ํฌ $K$๋ฅผ ๊ตฌ์ถ•ํ•˜์˜€๊ณ , ์—ฌ๊ธฐ์—๋Š” ์ถ”์„ธ๋ฅผ ์œ„ํ•œ ์„ ํ˜• ์ปค๋„, ๋ถ€๋“œ๋Ÿฌ์šด ๊ตญ์†Œ ๋ณ€๋™์„ ์œ„ํ•œ RBF ์ปค๋„, ์ผ๋ฐ˜์ ์ธ ์‹œ๊ณ„์—ด ์ฃผํŒŒ์ˆ˜์—์„œ ๋ฐœ๊ฒฌ๋˜๋Š” ๊ณ„์ ˆ์„ฑ์„ ์œ„ํ•œ ์ฃผ๊ธฐ์„ฑ ์ปค๋„์ด ํฌํ•จ๋œ๋‹ค. ์ตœ์ข… ์ปค๋„ $\tilde{\kappa}(t, tโ€™)$์€ $K$์—์„œ $j \sim U[{1, J}]$๊ฐœ์˜ ์ปค๋„์„ ๋ณต์› ์ถ”์ถœ(with replacement)๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ์ด ์ปค๋„๋“ค์„ ๋ฌด์ž‘์œ„ ์ดํ•ญ ์—ฐ์‚ฐ $+$ ๋˜๋Š” $\times$๋ฅผ ํ†ตํ•ด ๊ฒฐํ•ฉํ•œ๋‹ค. ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์€ GP ์‚ฌ์ „ ๋ถ„ํฌ $GP(m(t) = 0, \tilde{\kappa}(t, tโ€™))$์—์„œ ๊ธธ์ด $l_{syn}$์˜ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜์—ฌ ์ƒ์„ฑ๋œ๋‹ค.


ํฌ์ธํŠธ

Mixup ๋ณผ๋ก ์กฐํ•ฉ = ๊ฐ€์ค‘ ํ‰๊ท ๊ณผ ๋™์ผํ•˜๋‹ค. \(\tilde{x} = \lambda x_i + (1 - \lambda) x_j\)\(\tilde{y} = \lambda y_i + (1 - \lambda) y_j\) e.g. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐœ์™€ ๊ณ ์–‘์ด๋ฅผ 0.7๊ฐœ์˜ ๊ฐœ, 0.3๊ฐœ์˜ ๊ณ ์–‘์ด๋กœ ๋งŒ๋“œ๋Š”๊ฒƒ๊ณผ ๋™์ผํ•˜๋‹ค.

TSMixup ๋™์ž‘ ์›๋ฆฌ

  1. ๋ฐ์ดํ„ฐ ์Œ ์„ ํƒ: ํ›ˆ๋ จ์…‹์—์„œ ๋ฌด์ž‘์œ„๋กœ ๋‘ ๊ฐœ์˜ ์‹œ๊ณ„์—ด ์ƒ˜ํ”Œ(A, B)์„ ๋ฝ‘์Šต๋‹ˆ๋‹ค.
  2. ๋น„์ค‘ ๊ฒฐ์ •: 0์—์„œ 1 ์‚ฌ์ด์˜ ๊ฐ’์ธ $\lambda$๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ •ํ•ฉ๋‹ˆ๋‹ค. (์˜ˆ: $\lambda = 0.6$)
  3. ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ
    1. ์ž…๋ ฅ(๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ): A ์‹œ๊ณ„์—ด์˜ ๊ฐ’๋“ค์— 0.6์„ ๊ณฑํ•˜๊ณ , B ์‹œ๊ณ„์—ด์˜ ๊ฐ’๋“ค์— 0.4๋ฅผ ๊ณฑํ•ด์„œ ๋”ํ•ฉ๋‹ˆ๋‹ค.
    2. ๋ ˆ์ด๋ธ”(๋ฏธ๋ž˜ ์˜ˆ์ธก๊ฐ’): A์˜ ์‹ค์ œ ๋ฏธ๋ž˜๊ฐ’์— 0.6์„, B์˜ ์‹ค์ œ ๋ฏธ๋ž˜๊ฐ’์— 0.4๋ฅผ ๊ณฑํ•ด์„œ ๋”ํ•ฉ๋‹ˆ๋‹ค.
  4. ํ•™์Šต: ๋ชจ๋ธ์—๊ฒŒ ์ด โ€˜์„ž์ธ ์‹œ๊ณ„์—ดโ€™์„ ๋ณด์—ฌ์ฃผ๋ฉฐ โ€˜์„ž์ธ ๋ฏธ๋ž˜๊ฐ’โ€™์„ ์˜ˆ์ธกํ•˜๊ฒŒ ์‹œํ‚ต๋‹ˆ๋‹ค.

KernelSynth ์‹œ๊ณ„์—ด์„ ๋ ˆ๊ณ ๋กœ ๋ณด๋Š” ๋ฐฉ์‹ ๋ณต์žกํ•ด๋ณด์ด๋Š” ์‹œ๊ณ„์—ด๋„ ๋ช‡ ๊ฐ€์ง€ ๊ธฐ๋ณธํŒจํ„ด์œผ๋กœ ์ชผ๊ฐค ์ˆ˜ ์žˆ์Œ ์ด ๊ธฐ๋ณธํŒจํ„ด์„ ์ปค๋„๋กœ ์ •์˜ ์ƒ์„ฑ ๊ณผ์ •

  1. ์—ฌ๋Ÿฌ๊ฐœ์˜ ์ปค๋„์„ ์ดํ•ญ์—ฐ์‚ฐ(+, x) : e.g. RBF + 7์ผ ์ฃผ๊ธฐ x ์šฐ์ƒํ–ฅ ์ง์„  = ์ฃผ๊ฐ„ ๋งค์ถœ ๋ฐ์ดํ„ฐ
  2. ์ปค๋„์˜ ๊ฐ•๋„๋ฅผ ์กฐ์ ˆ
  3. ์‹œ๊ณ„์—ด ์ƒ์„ฑ(GP)

๋Œ€ํ‘œ์ ์ธ โ€˜๋ ˆ๊ณ  ๋ธ”๋ก(Kernel)โ€™ RBF (Radial Basis Function) Kernel: ์•„์ฃผ ๋งค๋„๋Ÿฌ์šด ๊ณก์„  ํŒจํ„ด (๋ถ€๋“œ๋Ÿฌ์šด ๋ณ€๋™) Periodic Kernel: ์ผ์ •ํ•œ ์ฃผ๊ธฐ๋กœ ๋ฐ˜๋ณต๋˜๋Š” ํŒจํ„ด (๊ณ„์ ˆ์„ฑ) Linear Kernel: ์ผ์ •ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์˜ฌ๋ผ๊ฐ€๊ฑฐ๋‚˜ ๋‚ด๋ ค๊ฐ€๋Š” ํŒจํ„ด (์ถ”์„ธ) White Noise Kernel: ์•„๋ฌด ๊ทœ์น™ ์—†๋Š” ๋ฌด์ž‘์œ„ ๋–จ๋ฆผ(๋…ธ์ด์ฆˆ)


๐Ÿ“š 5.6. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ถ„์„ & 5.7. ๋ชจ๋ธ์˜ ํ•œ๊ณ„

๋ฒˆ์—ญ

5.6 ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ถ„์„

์—ฌ๊ธฐ์„œ๋Š” ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ• ๋น„๊ต๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์—ฌ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์—ฌ๋Ÿฌ ์„ค๊ณ„ ์„ ํƒ์˜ ํšจ๊ณผ๋ฅผ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ Chronos-T5 (Small)์˜ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ํ›ˆ๋ จ ์Šคํ… ์ˆ˜, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋น„์œจ, ์ปจํ…์ŠคํŠธ ๊ธธ์ด, ์–ดํœ˜ ํฌ๊ธฐ์˜ ํšจ๊ณผ๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ์ €ํฌ๋Š” ๊ด€์‹ฌ ์žˆ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ๋ณ€๊ฒฝํ•˜๊ณ , ๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ์€ ์ฃผ์š” ๊ฒฐ๊ณผ์— ์‚ฌ์šฉ๋œ ๊ฐ’์œผ๋กœ ๊ณ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ํฌ๊ธฐ. ์ €ํฌ๋Š” 20202020M์—์„œ 710710710710M ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ”์œ„์˜ ๋„ค ๊ฐ€์ง€ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 7a์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ํ›ˆ๋ จ ์†์‹ค์€ ๋ชจ๋ธ ์šฉ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๊ฐœ์„ ๋˜๋Š” ๊ฒƒ์€ ๋†€๋ž์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 7b์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ชจ๋ธ ์„ฑ๋Šฅ์—์„œ๋„ ์ด๋Ÿฌํ•œ ์ถ”์„ธ๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ๋ฒค์น˜๋งˆํฌ ๋ชจ๋‘์—์„œ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ปค์ง์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ถ”์„ธ๋Š” ๋” ํฐ ๋ชจ๋ธ์ด ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ €ํฌ๋Š” ์ถ”๋ก  ์‹œ๊ฐ„์ด ๋А๋ ค์ ธ ์‹ค์ œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋น„์‹ค์šฉ์ ์ด๊ฒŒ ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋” ํฐ ๋ชจ๋ธ์€ ํƒ์ƒ‰ํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

์ดˆ๊ธฐํ™”. ์ €ํฌ๋Š” Chronos ๋ชจ๋ธ์„ Tay ์™ธ ์—ฐ๊ตฌ์ง„(2021)์ด C4 ๋ฐ์ดํ„ฐ์…‹(Raffel ์™ธ ์—ฐ๊ตฌ์ง„, 2020)์—์„œ ์‚ฌ์ „ ํ›ˆ๋ จํ•œ ํ•ด๋‹น T5 ์–ธ์–ด ๋ชจ๋ธ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๋Š” ๊ฒƒ์ด ํ›ˆ๋ จ ๋™์—ญํ•™ ๋˜๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์กฐ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 8์€ ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ๊ณผ ์–ธ์–ด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ์†์‹ค ๊ณก์„ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ฃผ๋ชฉํ•  ์ ์€, ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ์ด ์–ธ์–ด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ์— ๋น„ํ•ด ๋” ๋‚ฎ์€ ํ›ˆ๋ จ ์†์‹ค๋กœ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋” ํฐ ๋ชจ๋ธ(Base ๋ฐ Large)์˜ ๊ฒฝ์šฐ, ์–ธ์–ด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ์€ ์ดˆ๊ธฐ์— ํ›ˆ๋ จ ์†์‹ค์ด ๋” ๋น ๋ฅด๊ฒŒ ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ๋ณด์ด์ง€๋งŒ, ๊ถ๊ทน์ ์œผ๋กœ๋Š” ๋” ๋†’์€ ์ตœ์ข… ์†์‹ค๋กœ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค.

์ „๋ฐ˜์ ์œผ๋กœ ์ด๋Ÿฌํ•œ ๊ด€์ฐฐ์€ ์–ธ์–ด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๊ฐ€ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋งฅ๋ฝ์—์„œ ํŠน๋ณ„ํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•˜์ง€ ์•Š์œผ๋ฉฐ ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”์— ๋น„ํ•ด ๊ฐœ์„ ์ ์„ ์ œ๊ณตํ•˜์ง€ ์•Š์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๋ก ์€ ๊ทธ๋ฆผ 9์—์„œ ์–ธ์–ด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ๊ณผ ๊ฐ ํฌ๊ธฐ์˜ ์„ธ ๊ฐ€์ง€ ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™” ๋ชจ๋ธ์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ๋”์šฑ ๊ฐ•ํ™”๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ชจ๋ธ ํฌ๊ธฐ์— ๊ฑธ์ณ, ์–ธ์–ด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ์•ฝ๊ฐ„ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” LLM ์ดˆ๊ธฐํ™”๊ฐ€ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋งฅ๋ฝ์—์„œ ์ƒ๋Œ€์ ์œผ๋กœ ์ด์ ์ด ์ ์œผ๋ฉฐ, ๋Œ€์‹  ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐํ™”๊ฐ€ ๋” ์„ ํ˜ธ๋˜๋Š” ์„ ํƒ์ผ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

TSMixup ์ฆ๊ฐ•. ์„น์…˜ 5.2์— ์„ค๋ช…๋œ ๋ฐ”์™€ ๊ฐ™์ด, ์šฐ๋ฆฌ๋Š” Chronos ๋ชจ๋ธ์„ ์›๋ณธ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ TSMixup ์ฆ๊ฐ• ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋ณธ ์‹คํ—˜์—์„œ๋Š” TSMixup ์ฆ๊ฐ•์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ์œ ๋ฆฌํ•œ์ง€ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 10a๋Š” TSMixup ์ฆ๊ฐ•์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ํ•™์Šต๋œ Chronos-T5 (Small, 46M) ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. TSMixup ์ฆ๊ฐ•์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ์ฆ๊ฐ• ์—†์ด ํ•™์Šต๋œ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์ธ-๋„๋ฉ”์ธ ์„ฑ๋Šฅ์„ ์–ป์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ TSMixup ์ฆ๊ฐ•์„ ์‚ฌ์šฉํ•  ๋•Œ ์ œ๋กœ์ƒท(zero-shot) ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” TSMixup์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ํ–ฅ์ƒ์‹œ์ผœ ๋ณด์ง€ ๋ชปํ•œ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 10a๋Š” ๋˜ํ•œ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ํฌํ•จ ์‹œ ์ถ”๊ฐ€์ ์ธ ํ–ฅ์ƒ์„ ์–ป๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋‹ค์Œ ์‹คํ—˜์—์„œ ์ด๋ฅผ ๋” ์ž์„ธํžˆ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋น„์œจ. ์šฐ๋ฆฌ๋Š” KernelSynth๊ฐ€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„

์ฒด๊ณ„์ ์œผ๋กœ ํƒ์ƒ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” TSMixup ์ฆ๊ฐ•๊ณผ KernelSynth ๋ฐ์ดํ„ฐ์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ณ„์—ด์„ 0% (์ฆ‰, TSMixup ์ฆ๊ฐ•์œผ๋กœ๋งŒ ํ•™์Šต)์—์„œ 100% ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ๋น„์œจ๋กœ ์‚ฌ์šฉํ•˜์—ฌ Chronos-T5 (Small, 46M) ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 10b๋Š” ๋‹ค์–‘ํ•œ ๋น„์œจ์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ๋ฉ”ํŠธ๋ฆญ ๋ชจ๋‘ ํ•™์Šต ์‹œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์œผ๋กœ ๊ฐœ์„ ๋ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ผ๊ด€๋œ ๊ฐœ์„ ์€ ์•ฝ 10%์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋น„์œจ์—์„œ ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค.

10% ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋น„์œจ ๊ทผ์ฒ˜์—์„œ ๊ฐ€์žฅ ์ผ๊ด€๋œ ๊ฐœ์„ ์ด ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋น„์œจ์„ ๋” ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์€ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ค๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋“  ์‹ค์ œ ์‹œ๊ณ„์—ด์„ ๋Œ€ํ‘œํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์ด๋Š” ๋†€๋ž์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ ์ฝ”ํผ์Šค์— ํฌํ•จํ•œ ๋ชจ๋ธ์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€์ง€๋งŒ, ์ ˆ๋Œ€์  ์„ฑ๋Šฅ ๋ฉด์—์„œ๋Š” ํ•ฉ๋ฆฌ์ ์œผ๋กœ ์ž˜ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 20 (๋ถ€๋ก E)์€ ์ด ๋ชจ๋ธ์ด ForecastPFN (Dooley et al., 2023)๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ForecastPFN์€ (KernelSynth์™€๋Š” ๋‹ค๋ฅด๊ฒŒ ์ƒ์„ฑ๋œ) ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ›ˆ๋ จ๋œ ๋˜ ๋‹ค๋ฅธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„, ์ด ๋ชจ๋ธ์€ ํ›ˆ๋ จ ์ค‘์— ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์ „ํ˜€ ๋ณด์ง€ ๋ชปํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ €ํฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‹ค๋ฅธ ์—ฌ๋Ÿฌ ๋ฒ ์ด์Šค๋ผ์ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.7 ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์ €ํฌ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ์ž…์ฆํ•˜๋ฉฐ, ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ๋”์šฑ ์ขํžˆ๊ธฐ ์œ„ํ•œ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

ํ›ˆ๋ จ ๋‹จ๊ณ„. ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์žฅ๊ธฐ ํ›ˆ๋ จ์˜ ํšจ๊ณผ๋ฅผ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด Chronos-T5 (Small, 46M) ๋ชจ๋ธ์„ 1M ํ›ˆ๋ จ ๋‹จ๊ณ„ ๋™์•ˆ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 11a๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ํ›ˆ๋ จ ๊ณผ์ • ์ „๋ฐ˜์— ๊ฑธ์ณ, ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ๋ฒค์น˜๋งˆํฌ ๋ชจ๋‘์—์„œ ํ–ฅ์ƒ๋จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ๋” ํฐ ๋ชจ๋ธ(Base ๋ฐ Large)์˜ ์„ฑ๋Šฅ์ด ๋” ์˜ค๋ž˜ ํ›ˆ๋ จํ•จ์œผ๋กœ์จ ์ž ์žฌ์ ์œผ๋กœ ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์ปจํ…์ŠคํŠธ ๊ธธ์ด. ๋„ค ๊ฐ€์ง€ ๋‹ค๋ฅธ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๊ฐ€์ง„ Chronos-T5 (Small, 46M) ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜์—ฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด์˜ ํšจ๊ณผ๋ฅผ ์—ฐ๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 11b๋Š” ์ปจํ…์ŠคํŠธ ๊ธธ์ด๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ปจํ…์ŠคํŠธ ๊ธธ์ด๊ฐ€ 1024๊นŒ์ง€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ๋ฉ”ํŠธ๋ฆญ ๋ชจ๋‘์—์„œ ๊ฐœ์„ ์ด ๊ด€์ฐฐ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ๋” ๊ธด ์ปจํ…์ŠคํŠธ๊ฐ€ ์–ด๋А ์ •๋„๊นŒ์ง€ ๋ชจ๋ธ์ด ๋” ์ž˜ ์˜ˆ์ธกํ•˜๋„๋ก ๋•๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ธ-๋„๋ฉ”์ธ ๋ฐ ์ œ๋กœ์ƒท ๋ฉ”ํŠธ๋ฆญ ๋ชจ๋‘์—์„œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๊ฐ€ 1024๊นŒ์ง€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ด€์ฐฐํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๋” ๊ธด ์ปจํ…์ŠคํŠธ๊ฐ€ ๋ชจ๋ธ์ด ํŠน์ • ์ •๋„๊นŒ์ง€ ๋” ์ž˜ ์˜ˆ์ธกํ•˜๋„๋ก ๋•๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๋” ๋Š˜๋ฆฌ๋ฉด ์„ฑ๋Šฅ์ด ํฌํ™”๋˜๊ฑฐ๋‚˜ ์ €ํ•˜๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋Š”๋ฐ, ์ด๋Š” ํ‰๊ฐ€ ์„ค์ •์˜ ํ•œ๊ณ„ ๋•Œ๋ฌธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ถฉ๋ถ„ํ•œ ๊ณ ์ฃผํŒŒ์ˆ˜ ๋ฐ์ดํ„ฐ์…‹(>= 15๋ถ„)์„ ํฌํ•จํ•˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋” ๊ธด ์ปจํ…์ŠคํŠธ ๊ธธ์ด์˜ ์˜ํ–ฅ์„ ํ™•์‹คํ•˜๊ฒŒ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ณ ์ฃผํŒŒ์ˆ˜ ๋ฐ์ดํ„ฐ์…‹์ด ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ์ด์ ์„ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์žฅ๊ธฐ์ ์ธ ๊ณ„์ ˆ ํŒจํ„ด์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ํ•„์š”ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.

์–ดํœ˜ ํฌ๊ธฐ. ์–ดํœ˜ ํฌ๊ธฐ๋Š” ๋ชจ๋ธ์ด ์Šค์ผ€์ผ๋ง๋œ ์‹œ๊ณ„์—ด์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ฐ€๋„๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ํƒ์ƒ‰ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์–ดํœ˜ ํฌ๊ธฐ๋กœ Chronos-T5 (Small, 46M) ๋ชจ๋ธ์„ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 11c๋Š” ์–ดํœ˜ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํฌ์ธํŠธ ์˜ˆ์ธก ๋ฉ”ํŠธ๋ฆญ(MASE)์—์„œ ์•ฝ๊ฐ„์˜ ๊ฐœ์„ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์— WQL์€ ์ฒ˜์Œ์— ๊ฐœ์„ ๋˜๋‹ค๊ฐ€ ๋” ํฐ ์–ดํœ˜ ํฌ๊ธฐ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ํ–‰๋™์ด ์„ ํƒ๋œ ๋ฉ”ํŠธ๋ฆญ์˜ ์ธ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ผ๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ฐœ๋ณ„ ์‹œ๊ณ„์—ด์˜ ์Šค์ผ€์ผ์— ๋ถˆ๋ณ€ํ•˜๋Š” MASE๋Š” ์Šค์ผ€์ผ์— ๋ถˆ๋ณ€ํ•˜๋Š” ํ›ˆ๋ จ ์†์‹ค๊ณผ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ด€๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ MASE๋Š” ํ›ˆ๋ จ ์†์‹ค์—์„œ ์˜ˆ์ƒ๋˜๋Š” ๋ฐ”์™€ ๊ฐ™์ด ์ •๋ฐ€๋„ ์ฆ๊ฐ€์™€ ํ•จ๊ป˜ ๊ฐœ์„ ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์Šค์ผ€์ผ์— ์˜์กด์ ์ธ ๋ฉ”ํŠธ๋ฆญ์ธ WQL์€ ํ›ˆ๋ จ ์†์‹ค๊ณผ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ƒ๊ด€๋˜์ง€ ์•Š์œผ๋ฉฐ ์ •๋ฐ€๋„๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์˜ˆ์ธก ๊ฐ€๋Šฅ์„ฑ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฉ”ํŠธ๋ฆญ์˜ ์†์„ฑ์— ๋Œ€ํ•œ ๋…ผ์˜๋Š” ๋ถ€๋ก D๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค. ์ด ์‹คํ—˜์„ ๋„˜์–ด์„œ, ์šฐ๋ฆฌ๋Š” Chronos์™€ ๊ฐ™์€ ๋ชจ๋ธ์˜ ๋งฅ๋ฝ์—์„œ ์–ดํœ˜ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ œ๊ธฐํ•  ๊ฒƒ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ์–ดํœ˜ ํฌ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ํฐ ์ด์‚ฐํ™” ์˜ค๋ฅ˜๋กœ ์ธํ•ด ์˜ˆ์ธก ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์ง€์ง€๋งŒ, ์–ดํœ˜ ํฌ๊ธฐ๊ฐ€ ํฌ๋ฉด ๋นˆ์ด ๋„ˆ๋ฌด ๋ฏธ์„ธํ•ด์ ธ ๊ฐ ๋นˆ์— ๋“ค์–ด๊ฐ€๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ์ˆ˜๊ฐ€ ์ ์–ด ์ผ๋ฐ˜ํ™” ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5.7 ์ •์„ฑ์  ๋ถ„์„ ๋ฐ ํ•œ๊ณ„ ์ด ์„น์…˜์—์„œ๋Š” Chronos ๋ชจ๋ธ์—์„œ ์ƒ์„ฑ๋œ ์˜ˆ์ธก์„ ์ •์„ฑ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ํ† ํฐํ™” ๊ธฐ๋ฒ•์˜ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

5.7 ์ •์„ฑ์  ๋ถ„์„ ๋ฐ ํ•œ๊ณ„์  ๋ณธ ์„น์…˜์—์„œ๋Š” Chronos ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ •์„ฑ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ์ €ํฌ์˜ ํ† ํฐํ™” ๊ธฐ๋ฒ•์˜ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ๋„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์ €ํฌ๋Š” ๋‹ค์–‘ํ•œ ์‹œ๊ณ„์—ด ํŒจํ„ด์— ๋Œ€ํ•œ ํ†ต์ œ๋œ ๋ถ„์„์„ ์œ„ํ•ด ์ฃผ๋กœ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ ์˜ˆ์‹œ๋Š” ๋ถ€๋ก E์˜ ๊ทธ๋ฆผ 22๋ถ€ํ„ฐ 24๊นŒ์ง€๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

I.I.D. ๋…ธ์ด์ฆˆ. ์ €ํฌ๋Š” ์ˆœ์ „ํžˆ ๊ฐ€์šฐ์‹œ์•ˆ ๊ด€์ธก์น˜ N(0, 1) ๋ฐ N(100, 10)๋กœ ๊ตฌ์„ฑ๋œ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด Chronos-T5 (Base)๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 12a๋Š” Chronos๊ฐ€ ์ด๋Ÿฌํ•œ ์‹œ๊ณ„์—ด์— ๋Œ€ํ•ด ํƒ€๋‹นํ•œ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์˜ˆ์ธก๋œ 80% ๊ตฌ๊ฐ„์ด ์ ์„  ํŒŒ๋ž€์ƒ‰ ์„ ์œผ๋กœ ํ‘œ์‹œ๋œ ์‹ค์ œ 80% ๊ตฌ๊ฐ„๊ณผ ์ผ์น˜ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ถ”์„ธ ๋ฐ ๊ณ„์ ˆ์„ฑ. ์ €ํฌ๋Š” ์„ ํ˜• ๋ฐ ์ง€์ˆ˜ ์ถ”์„ธ๋ฅผ ๋”ฐ๋ฅด๋Š” ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. Chronos-T5 (Base)๋Š” ์„ ํ˜• ์ถ”์„ธ๋Š” ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜์ง€๋งŒ, ๊ทธ๋ฆผ 12b์— ํ‘œ์‹œ๋œ ๊ฒƒ์ฒ˜๋Ÿผ ์ง€์ˆ˜ ์ถ”์„ธ์—๋Š” ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ์ง€์ˆ˜ ์ถ”์„ธ์˜ ํ‘œํ˜„์ด ์ œํ•œ์ ์ด๊ธฐ ๋•Œ๋ฌธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ง€์ˆ˜ ์ถ”์„ธ๊ฐ€ ์žˆ๋Š” ์‹œ๊ณ„์—ด์— ๋Œ€ํ•œ ๋” ๋‚˜์€ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ์ž ์žฌ์ ์ธ ํ•ด๊ฒฐ์ฑ…์€ ์‹œ๊ณ„์—ด์„ Chronos ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜๊ธฐ ์ „์— ๋กœ๊ทธ ์Šค์ผ€์ผ๋ง์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์ €ํฌ๋Š” ์ปจํ…์ŠคํŠธ๊ฐ€ ์ถฉ๋ถ„ํžˆ ๊ธธ์ง€ ์•Š์„ ๋•Œ Chronos ๋ชจ๋ธ์ด ์ถ”์„ธ๋ฅผ ๊ณผ์†Œํ‰๊ฐ€ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ํ˜„์ƒ์€

์งง์€ ์ปจํ…์ŠคํŠธ๊ฐ€ ์ œ๊ณต๋˜์—ˆ์„ ๋•Œ ๋ชจ๋ธ์ด ํŒจํ„ด์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์˜ˆ์ธกํ•˜์ง€๋งŒ ์ถ”์„ธ๋ฅผ ๊ณผ์†Œํ‰๊ฐ€ํ•˜๋Š” ๊ทธ๋ฆผ 13์— ๋ฌ˜์‚ฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์€ ์˜ฌ๋ฐ”๋ฅธ ํŒจํ„ด๊ณผ ์ถ”์„ธ๋ฅผ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค. ์ €ํฌ ๋ถ„์„์—์„œ Chronos ๋ชจ๋ธ์ด ์‹œ๊ณ„์—ด์—์„œ ๊ณ„์ ˆ์„ฑ ํŒจํ„ด์„ ํŠนํžˆ ์ž˜ ์ธ์‹ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €ํฌ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์ฃผํŒŒ์ˆ˜๋ฅผ ๊ฐ€์ง„ ์‚ฌ์ธํŒŒ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ˆœ์ „ํžˆ ๊ณ„์ ˆ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 12c์— ํ‘œ์‹œ๋œ ๊ฒƒ์ฒ˜๋Ÿผ Chronos-T5 (Base)๋Š” ๋‘ ์‹œ๊ณ„์—ด ๋ชจ๋‘๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ถ”์„ธ ๋ฐ ๊ณ„์ ˆ์„ฑ๊ณผ ๊ฐ™์€ ๊ทผ๋ณธ์ ์ธ ํŒจํ„ด์ด ๋ง์…ˆ ๋˜๋Š” ๊ณฑ์…ˆ์œผ๋กœ ๊ฒฐํ•ฉ๋  ๋•Œ, Chronos๋Š” ์ด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ์ธํŒŒ์™€ ์„ ํ˜• ํ•จ์ˆ˜์˜ ๋ง์…ˆ ๋ฐ ๊ณฑ์…ˆ์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์‹œ๊ณ„์—ด์— ๋Œ€ํ•œ ๊ทธ๋ฆผ 12d์—์„œ ์ž…์ฆ๋ฉ๋‹ˆ๋‹ค.

์ž๊ธฐํšŒ๊ท€ ํ”„๋กœ์„ธ์Šค. ์ฐจ์ˆ˜ p์˜ ์ž๊ธฐํšŒ๊ท€(AR) ํ”„๋กœ์„ธ์Šค๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

\[X_t = \sum_{i=1}^{p} \phi_i X_{t-i} + \varepsilon_t\]

์—ฌ๊ธฐ์„œ $\varepsilon_t \sim N(0, 1)$์ด๊ณ  $\phi_1, \dots, \phi_p$๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค. ์ €ํฌ๋Š” 1๋ถ€ํ„ฐ 4๊นŒ์ง€์˜ ๋‹ค์–‘ํ•œ ์ฐจ์ˆ˜๋ฅผ ๊ฐ€์ง„ ์ •์ƒ ์ž๊ธฐํšŒ๊ท€ ํ”„๋กœ์„ธ์Šค์—์„œ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ–ˆ์œผ๋ฉฐ, Chronos-T5 (Base)๊ฐ€ ์ƒ์„ฑํ•œ ์˜ˆ์ธก์„ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค: (a) ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ ์‹ค์ œ AR ๋ชจ๋ธ; (b) ์‹œ๊ณ„์—ด์— ๋งž์ถฐ์ง„ ์˜ฌ๋ฐ”๋ฅธ ์ฐจ์ˆ˜(p)๋ฅผ ๊ฐ€์ง„ AR ๋ชจ๋ธ; (c) ์‹œ๊ณ„์—ด์— ๋งž์ถฐ์ง„ AutoARIMA ๋ชจ๋ธ. ๊ทธ๋ฆผ 14๋Š” AR(1) ๋ฐ AR(4) ํ”„๋กœ์„ธ์Šค์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๊ณ , ๊ทธ๋ฆผ 21(๋ถ€๋ก E)์€ AR(2) ๋ฐ AR(3)์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ €ํฌ๋Š” Chronos-T5 (Base)๊ฐ€ ๋„ค ๊ฐ€์ง€ AR ํ”„๋กœ์„ธ์Šค ๋ชจ๋‘์—์„œ ํƒ€๋‹นํ•œ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•จ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๋” ๊ฐ„๋‹จํ•œ AR(1) ๋ฐ AR(2) ํ”„๋กœ์„ธ์Šค๋Š” ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ง€์ •๋œ AR ๋ชจ๋ธ๊ณผ AutoARIMA ๋ชจ๋ธ์ด ๋” ์‰ฝ๊ฒŒ ๋งž์ถœ ์ˆ˜ ์žˆ์–ด, Chronos-T5 (Base)๋ณด๋‹ค ๋” ๋‚˜์€ MSE๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ AR(3) ๋ฐ AR(4) ํ”„๋กœ์„ธ์Šค์˜ ๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ, Chronos-T5 (Base)๋Š” AutoARIMA ๋ชจ๋ธ(์‹ค์ œ ๋ชจ๋ธ๊ณผ ๋™์ผํ•œ ๊ณ„์—ด์— ์†ํ•จ)์„ ๋Šฅ๊ฐ€ํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์˜ฌ๋ฐ”๋ฅธ ์ฐจ์ˆ˜๋กœ ๋งž์ถฐ์ง„ AR ๋ชจ๋ธ๊ณผ๋„ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” Chronos ๋ชจ๋ธ์ด ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ์กด์žฌํ•˜๋Š” ๊ทผ๋ณธ์ ์ธ ํŒจํ„ด์„ ์ธ์‹ํ•  ์ˆ˜ ์žˆ์Œ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

์œ ์—ฐํ•œ ์˜ˆ์ธก ๋ถ„ํฌ. ๋ฒ”์ฃผํ˜• ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก์„ ์ธ์ฝ”๋”ฉํ•จ์œผ๋กœ์จ Chronos๋Š” ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ทธ๋ฆผ 15์— ํ‘œ์‹œ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์„ธ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹์— ๊ฑธ์ณ ์˜ˆ์ธก ํ˜ธ๋ผ์ด์ฆŒ์˜ ์ฒ˜์Œ ๋‹ค์„ฏ ํƒ€์ž„์Šคํ…์— ๋Œ€ํ•ด Chronos ๋ชจ๋ธ์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ํ† ํฐ ID์˜ ์ปค๋„ ๋ฐ€๋„ ์ถ”์ •(KDE) ํ”Œ๋กฏ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๊ฑฐ๋ฆฌ ์ธ์‹ ๊ธฐ๋Šฅ์ด ์—†์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , Chronos๋Š” ์—ฐ์†์ ์ธ ํ† ํฐ ์ง‘ํ•ฉ์— ๊ฑธ์ณ, ๊ทธ๋ฆฌ๊ณ  ๋‹ค์ค‘ ๋ชจ๋‹ฌ์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๊ฑฐ๋ฆฌ ์ธ์‹ ๊ธฐ๋Šฅ์„ ๊ฐ–์ง€ ์•Š์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , Chronos๋Š” ๋‹ค์ค‘ ๋ชจ๋“œ๋ฅผ ํฌํ•จํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์—ฐ์†์ ์ธ ํ† ํฐ ์ง‘ํ•ฉ์— ๋Œ€ํ•œ ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. Chronos๋Š” ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ๊ณต๊ฐ„์˜ ์œ„์ƒ์„ ํ•™์Šตํ•˜์ง€๋งŒ, ํ•™์Šต ์ค‘์— ๋ชจ๋ธ์— ๋ช…์‹œ์ ์ธ ์œ„์ƒ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋ฉด ํ”„๋กœ์„ธ์Šค๊ฐ€ ๊ฐ€์†ํ™”๋˜๊ณ  ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์ ์€ ํ† ํฐ์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ๊ฒฌ๊ณ ํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์— ์œ„์ƒ ์ •๋ณด๋ฅผ ์ฃผ์ž…ํ•˜๋Š” ํ•œ ๊ฐ€์ง€ ์ž ์žฌ์ ์ธ ๋ฐฉ๋ฒ•์€ ์ผ์ข…์˜ ๋ ˆ์ด๋ธ” ์Šค๋ฌด๋”ฉ(label smoothing)์„ ํ†ตํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, ์ด๋Š” ์˜ฌ๋ฐ”๋ฅธ ํ† ํฐ์˜ ์ด์›ƒ์— ์žˆ๋Š” ํ† ํฐ(์ฆ‰, ๋นˆ)์— 0์ด ์•„๋‹Œ ํ™•๋ฅ  ์งˆ๋Ÿ‰์„ ํ• ๋‹นํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Farebrother ๋“ฑ(2024)์€ ๊ฐ•ํ™” ํ•™์Šต ๋งฅ๋ฝ์—์„œ ์ด๋Ÿฌํ•œ ๊ฑฐ๋ฆฌ ์ธ์‹ ํšŒ๊ท€-๋ถ„๋ฅ˜(regression-via-classification) ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์œ ๋งํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋งฅ๋ฝ์—์„œ ํšŒ๊ท€-๋ถ„๋ฅ˜ ํŒจ๋Ÿฌ๋‹ค์ž„์— ๋Œ€ํ•œ ์‹ฌ์ธต์ ์ธ ์ด๋ก ์  ๋ฐ ๊ฒฝํ—˜์  ๋ถ„์„์€ ํฅ๋ฏธ๋กœ์šด ํ–ฅํ›„ ์—ฐ๊ตฌ๋ฅผ ๊ตฌ์„ฑํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์˜ค๋ฒ„ํ”Œ๋กœ์šฐ ๋ฐ ์ •๋ฐ€๋„ ์†์‹ค. Chronos์˜ ํ•œ ๊ฐ€์ง€ ํ•œ๊ณ„๋Š” ์ œ์•ˆ๋œ ํ† ํฐํ™” ์ ‘๊ทผ ๋ฐฉ์‹(์„น์…˜ 3.1 ์ฐธ์กฐ)์—์„œ ๋น„๋กฏ๋ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๊ฐ€ ์„ ํƒํ•œ ํ† ํฐ์€ ๋ฒ”์œ„ [โˆ’15, +15] ๋‚ด์˜ ๋นˆ ์ค‘์‹ฌ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋Š” ๊ถ๊ทน์ ์œผ๋กœ ์›๋ž˜ ์‹œ๊ณ„์—ด ๊ฐ’์„ ๋ฒ”์œ„ [โˆ’15s, 15s]๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ s๋Š” ์‹œ๊ณ„์—ด์˜ ์Šค์ผ€์ผ(ํ‰๊ท  ์ ˆ๋Œ€๊ฐ’)์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ s๊ฐ€ ํ•ด๋‹น ์‹œ๋ฆฌ์ฆˆ์˜ ๊ฐ’ ๋ฒ”์œ„์— ๋น„ํ•ด ๋งค์šฐ ์ž‘๋‹ค๋ฉด, ์ผ๋ถ€ ๊ด€์ธก์น˜๋Š” ํ‘œํ˜„ ๊ฐ€๋Šฅํ•œ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋งŒ์•ฝ s๊ฐ€ ์‹œ๊ณ„์—ด ๊ฐ’์˜ ๋ฒ”์œ„์— ๋น„ํ•ด ๋งค์šฐ ์ž‘๋‹ค๋ฉด, ์ผ๋ถ€ ๊ด€์ธก์น˜๋Š” ํ‘œํ˜„ ๊ฐ€๋Šฅํ•œ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋™์ž‘์˜ ํ•œ ์˜ˆ๋Š” ํฌ์†Œ ์‹œ๊ณ„์—ด์—์„œ ๋‚˜ํƒ€๋‚˜๋ฉฐ, ๊ทธ๋ฆผ 16a์— ํ‘œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์—, ๋ถ„์‚ฐ์— ๋น„ํ•ด s ๊ฐ’์ด ๋งค์šฐ ํฌ๋ฉด ์ •๋ฐ€๋„ ์†์‹ค์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์›๋ž˜ ๊ณต๊ฐ„์—์„œ ํ† ํฐ์€ ์„œ๋กœ $30s/(B - 1)$ ๊ฐ„๊ฒฉ์œผ๋กœ ๋–จ์–ด์ ธ ์žˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์„œ B๋Š” ๋นˆ(bin)์˜ ๊ฐœ์ˆ˜์ž…๋‹ˆ๋‹ค (์‹คํ—˜์—์„œ๋Š” B = 4094๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค). ์ด๋ณด๋‹ค ๊ฐ€๊นŒ์šด ๊ฐ’๋“ค์€ ๋™์ผํ•œ ํ† ํฐ์œผ๋กœ ๋งคํ•‘๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋ช…๋ฐฑํ•œ ์ •๋ฐ€๋„ ์†์‹ค์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋™์ž‘์˜ ํ•œ ์˜ˆ๋Š” ๊ทธ๋ฆผ 16b์— ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ถ”๋ก  ์‹œ์  ํœด๋ฆฌ์Šคํ‹ฑ ํ•ด๊ฒฐ์ฑ…์€ ๋Œ€๊ทœ๋ชจ์ด๊ณ  ๋ถ„์‚ฐ์ด ์ž‘์€ ์‹œ๊ณ„์—ด์— ๋Œ€ํ•ด ํ‘œ์ค€ํ™”์™€ ๊ฐ™์€ ๋Œ€์•ˆ์ ์ธ ์ •๊ทœํ™” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด์„ ์‚ฌ์ „ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํœด๋ฆฌ์Šคํ‹ฑ ์—†์ด ์ด๋Ÿฌํ•œ ์—ฃ์ง€ ์ผ€์ด์Šค๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ํ† ํฐํ™”(tokenization)๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ์ด์ง€๋งŒ, ์„น์…˜ 5.5์˜ ๊ฒฐ๊ณผ๋Š” Chronos ๋ชจ๋ธ์ด ์ด๋Ÿฌํ•œ ํ•œ๊ณ„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‹ค์ œ ๋ฐ์ดํ„ฐ์—์„œ ์ž˜ ์ž‘๋™ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ


ํฌ์ธํŠธ



This post is licensed under CC BY 4.0 by the author.