Chronos - Learning the Language of Time Series
๐ ์ถ์ฒ
https://arxiv.org/abs/2403.07815
๐๏ธ ์์ฝ
๐ 3์ค ์์ฝ
- ์๊ณ์ด ๊ฐ์ ์ค์ผ์ผ๋ง ๋ฐ ์์ํํ์ฌ ๊ณ ์ ๋ ์ดํ๋ก ํ ํฐํํ๊ณ , ๊ธฐ์กด Transformer ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์ต์ํ์ ์์ ๋ง์ผ๋ก ์ด ํ ํฐํ๋ ์๊ณ์ด์ ๋ํด CE๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต์ํค๋ pretrained ๋ชจ๋ธ
- ๊ณต๊ฐ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณผ, Gaussian Process๊ธฐ๋ฐ์ ํฉ์ฒญ ๋ฐ์ดํฐ์ (KernelSYnth), TSMixup์ฆ๊ฐ์ผ๋ก ์ฌ์ ํ์ต, TS์ ํน์ง์ ์ฌ์ฉํ์ง ์๊ณ , autogressive sampling์ ํตํด ํ๋ฅ ์ ์์ธก์ ์ํ
- Chronos๋ ์ฑ๋ฅ์ด ์ ๋์ค๊ณ , zero-shot์ ํนํ๋จ
๐์์ฝ
โTSโ๋ฐ์ดํฐ๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ โ์ธ์ดโ๋ก ๋ณํํ์ฌ, ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ LM ์ํคํ ์ฒ๋ฅผ ์๊ณ์ด ์์ธก์ ์ ์ฉ
1. ํต์ฌ ๋ฐฉ๋ฒ๋ก
์๊ณ์ด ๋ฐ์ดํฐ์ ํ ํฐํ, ์ธ์ด ๋ชจ๋ธ ์ฌํ์ฉ
1.1. ์๊ณ์ด ํ ํฐํ
์ค์ ๊ฐ์ ๊ฐ์ง๋ ์๊ณ์ด์ ์ ํํ ์ดํ์ ์ด์ฐ์ ์ธ ํ ํฐ์ผ๋ก ๋งคํ
Scaling : Mean Scailing ์ฌ์ฉ, ์๊ณ์ด์ ๊ฐ ์ํธ๋ฆฌ๋ฅผ context๋ด์ ์ ๋๊ฐ์ ํ๊ท ์ผ๋ก ๋๋ $\tilde{x}i = (x_i - m) / s$ ์ฌ๊ธฐ์ m=0 ์ด๊ณ , $s = C^{-1} \sum{j=1}^{C} x_j $ ์. ์ด๋ ์๊ณ์ด์ 0์ ๋ณดํธํ๋ ์ด์ ์ ๊ฐ์ง - Quantization : ์ค์ผ์ผ๋ง๋ ์ค์ ๊ฐ $\tilde{x}_i$์ ์ด์ฐ์ ์ธ ํ ํฐ ID๋ก ๋ณํํจ. B๊ฐ์ ์นธ(Bin) ์ค์ฌ $c_1 < \ldots < c_B$ ์ B-1๊ฐ์ $b_i$๋ฅผ ์ค์ , \(q : \mathbb{R} \to \{1, 2, \dots, B\}\) \(q(x) = \begin{cases} 1, & \text{if } -\infty \le x < b_1, \\ 2, & \text{if } b_1 \le x < b_2, \\ \vdots & \\ B, & \text{if } b_{B-1} \le x < \infty. \end{cases}\)
ํ๋ จ๋ฐ์ดํฐ์๋ํ ์์กด์ฑ์ ์ค์ด๊ธฐ ์ํด [-15, +15]๊ตฌ๊ฐ ๋ด์์ Uniform Binning์ ์ฌ์ฉ. ๊ฐ์ด 15๋ณด๋ค ํฌ๋ฉด ๋ง์ง๋ง์นธ, -15๋ณด๋ค ์์ผ๋ฉด ์ฒซ๋ฒ์งธ ์นธ์ผ๋ก ๋ณด๋ ์๊ณ์ด ํ ํฐ์ด์ธ์ ์ธ์ด ๋ชจ๋ธ์์ ์ฌ์ฉํ๋ ํน์ํ ํฐ PAD, EOSํ ํฐ์ ์ดํ์ ํฌํจํ์ฌ ์๊ณ์ด ์ดํ ์งํฉ $V_{ts}$๋ฅผ ๊ตฌ์ฑ
1.2. ์ธ์ด ๋ชจ๋ธ
ํ ํฐํ๋ ์๊ณ์ด์ ์ผ๋ฐ์ ์ธ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ ฅ. Chronos๋ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ์ธ T5๊ณ์ด์ ์ฌ์ฉ, ๋์ฝ๋ only์ธ GPT-2์๋ ์ ์ฉ ๊ฐ๋ฅํจ์ ๋ณด์ **๋ชจ๋ธ ์ํคํ ์ฒ๋ ๋ณ๊ฒจ์ค๋์ง ์์ผ๋ฉฐ, ๋จ์ง ์์ํํ๋ B๊ฐ์์ ๋ฐ๋ผ ์ดํ ํฌ๊ธฐ $|V_{ts}|$, ์ฆ ์ ๋ ฅ์ธต์ ํฌ๊ธฐ๋ง ์์ ํ๋ฉด ๋จ
1.3. ๋ชฉ์ ํจ์
\(\ell(\theta) = -\sum_{h=1}^{H+1} \sum_{i=1}^{|V_{ts}|} \mathbb{1}(z_{C+h+1}=i) \log p_\theta(z_{C+h+1}=i|z_{1:C+h})\) Cross-Entropy Loss ๊ทธ๋๋ก ์ฌ์ฉํจ. ๋ค์ค ๋ถ๋ฅ๋ฌธ์ ๋ก ์ ๊ทผํ์ฌ, ๋ค์ ์ซ์๊ฐ ์ด๋ค ์นธ(Bin)์ธ์ง ๋ง์ถ๋ ๋ฌธ์ ๋ก ์ ๊ทผ** ์์ค ํจ์ ์์ฒด๊ฐ ์ซ์ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ทธ ์์ฒด๋ฅผ ์์ง ๋ชปํ์ง๋ง, ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ค์ค๋ก ํ์ตํ์ฌ ์ธ์ ํ ์นธ๋ค์ ์๋ก ์ฐ๊ด๋์ด ์๋ค๋ฅผ ํ์ตํ๋๊ฒ์ด ๋ชฉ์ ์
1.4. ์์ธก
๋ค์์ ์ฌ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ํ ํฐ์ ์๊ทํ๊ท(Autogressive)๋ก ํ๋์ฉ ๋ฝ์๋
- ํ๋ฅ ๋ก ์ ์์ธก : ๋ฑ ํ๋์ ๊ฐ๋ง ๋ด๋๋ ๊ฒ ์๋๋ผ, ์ฌ๋ฌ ๋ฒ ์ํ๋งํ์ฌ ๋ฏธ๋์ ์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ ๊ทธ๋ ค๋
- ์ญ๊ณผ์ : ํ ํฐ ์ํ๋ง โ ์ญ ์์ํ(์นธ ์ค์ฌ๊ฐ์ผ๋ก ๋ณํ) โ ์ญ์ค์ผ์ผ๋ง(์๋ ๋จ์๋ก ๋ณต์) ๊ณผ์ ์ ๊ฑฐ์ณ, ์ฐ๋ฆฌ ๋์ ๋ณด์ด๋ ์๊ณ์ด ๋ฐ์ดํฐ๋ก ๋๋๋ฆฐ๋ค.
2. ๋ฐ์ดํฐ ์ฆ๊ฐ
2.1. TSMixup ๐
์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ฌ์ฉํ๋ Mixup์ ์๊ณ์ด ๋ฒ์ . ์๋ก ๋ค๋ฅธ ์๊ณ์ด ์ฌ๋ฌ ๊ฐ๋ฅผ ๊ฐ์ ธ์์ ๋ณผ๋ก ์กฐํฉ(Convex Combination)์ ๋ง๋ฆ \(\tilde{x}_{1:l}^{\text{TSMixup}} = \sum_{i=1}^k \lambda_i \tilde{x}_{1:l}^{(i)}\)
- e.g. โ์ฃผ๊ฐ ๋ฐ์ดํฐโ์ โ์จ๋ ๋ฐ์ดํฐโ๋ฅผ ํน์ ๋น์จ๋ก ์์ด์ ์ธ์์ ์๋ ์๋ก์ด ํํ์ ์๊ณ์ด์ ๋ง๋ค์ด ๋ชจ๋ธ์๊ฒ ๋ณด์ฌ์ค์ผ๋ก์จ, ๋ชจ๋ธ์ด ํน์ ๋ฐ์ดํฐ์๋ง ๋งค๋ชฐ๋์ง ์๊ณ ๊ฐ๊ฑดํ๊ฒ ํ์ต๋๋๋ก ๋์
- ๊ณผ์ : ๋ฌด์์๋ก K๊ฐ์ ์๊ณ์ด(Uniform์์ ์ถ์ถ)์ ์ ํ โ ํ๊ท ์ค์ผ์ผ๋งํ ํ, $Dir({\alpha})$, ๋๋ฆฌํด๋ ๋ถํฌ์์ ์ํ๋ง๋ ๊ฐ์ค์น $\lambda_i$ ๋ฅผ ์ฌ์ฉํ์ฌ ๋ณผ๋ก ์กฐํฉ์ ์์ฑ
2.2. KernelSynth
๊ฐ์ฐ์์ ํ๋ก์ธ์ค(GP)๋ฅผ ํ์ฉํ์ฌ ์์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋ฌดํ์ ์์ฐํ๋ค.
- ์ปค๋ ๋ฑ ํฌ : ์ ํ(์ถ์ธ), RBF(๋ถ๋๋ฌ์ด ๋ณํ), ์ฃผ๊ธฐ์ฑ(๊ณ์ ์ฑ)๋ฑ์ ๋ด๋นํ๋ ์ํ์ ์ปค๋๋ค์ ์ค๋น
- ์กฐํฉ : ์ด๋ฅผ ์กฐํฉํ์ฌ ๋ณต์กํ ํจํด์ โDNAโ๋ฅผ ๋ง๋ฆ
- ์ํ๋ง : ์ด DNA๋ก ๋ถํฐ ์ํ์ ์ผ๋ก ์๋ฒฝํ๊ฒ ์ค๋ช ๊ฐ๋ฅํ ์๊ณ์ด์ ์์ฑ
3. ์คํ ๋ฐ ๊ฒฐ๊ณผ
3.1. ํ๊ฐ ์งํ
- WQL(Weighted Quantile Loss) : ์์ธก๊ฐ์ ๋ถํฌ๊ฐ ์ค์ ๊ฐ์ ๋ถํฌ๋ฅผ ์ผ๋ง๋ ์ ๋ง์ท๋์ง(ํ๋ฅ ์ ์ ํ๋)๋ฅผ ์ธก์
- MASE(Mean Absolute Scaled Error) : ์ ์์ธก์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ์ธก์ ํ์ฌ, ๋จ์๋ชจ๋ธ ๋๋น ์ผ๋ง๋ ๋์์ง๋ฅผ ๋ณด์ฌ์ค
3.2. ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋
- ๋ชจ๋ธ ํฌ๊ธฐ : ํ๋ผ๋ฏธํฐ๊ฐ ์ฆ๊ฐํ ์๋ก ์ฑ๋ฅ ํฅ์
- ์ด๊ธฐํ : LM ๊ฐ์ค์น๋ก ์ด๊ธฐํํ ๋ชจ๋ธ์ ๋ฌด์์๋ก ์ด๊ธฐํ ๋ชจ๋ธ์ ๋นํด ์๋ ด๊ณผ loss๊ฐ ํผ. ๋ฐ๋ผ์ ๋ฌด์์ ์ด๊ธฐํ๊ฐ ๋ ๋์ ์ ํ
- ์ฆ๊ฐ : KernelSynth๋ฅผ ํตํ ํฉ์ฑ๋ฐ์ดํฐ์ ์์, ์ ์ฒด ๋ฐ์ดํฐ์ 10%์ ๋๊ฐ ์ถฉ๋ถ
- Context ๊ธธ์ด : 1024๊น์ง ํฅ์, ๊ทธ ์ดํ ๋์ผ ํน์ ์ฝํ
๐ ์ ๋ฆฌ
๐ ์ ๋ชฉ
Chronos: Learning the Language of Time Series
๐ ์ด๋ก
๋ฒ์ญ
Chronos๋ ์ฌ์ ํ๋ จ๋ ํ๋ฅ ๋ก ์ ์๊ณ์ด ๋ชจ๋ธ์ ์ํ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์๊ฐํฉ๋๋ค. Chronos๋ ์ค์ผ์ผ๋ง๊ณผ ์์ํ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ณ์ด ๊ฐ์ ๊ณ ์ ๋ ์ดํ๋ก ํ ํฐํํ๊ณ , ์ด๋ฌํ ํ ํฐํ๋ ์๊ณ์ด์ ๋ํด ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ๊ต์ฐจ ์ํธ๋กํผ ์์ค(cross-entropy loss)์ ํตํด ํ๋ จํฉ๋๋ค. ์ ํฌ๋ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์์ ์ํด ๊ฐ์ฐ์์ ํ๋ก์ธ์ค(Gaussian processes)๋ฅผ ํตํด ์์ฑํ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ๋ณด์ํ์ฌ, ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ๋ชจ์์ ๊ธฐ๋ฐํ T5 ๊ณ์ด(20M๋ถํฐ 710M ํ๋ผ๋ฏธํฐ๊น์ง)์ Chronos ๋ชจ๋ธ์ ์ฌ์ ํ๋ จํ์ต๋๋ค. ๊ณ ์ ์ ์ธ ๋ก์ปฌ ๋ชจ๋ธ๊ณผ ๋ฅ๋ฌ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ชจ๋ ํฌํจํ๋ 42๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ๋ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ์์, ์ ํฌ๋ Chronos ๋ชจ๋ธ์ด (a) ํ๋ จ ์ฝํผ์ค์ ํฌํจ๋ ๋ฐ์ดํฐ์ ์์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ๋ค์ ์๋นํ ๋ฅ๊ฐํ๋ฉฐ, (b) ํด๋น ๋ฐ์ดํฐ์ ์ ๋ํด ํน๋ณํ ํ๋ จ๋ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋น๊ตํ์ ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์์ ์ ์ฌํ๊ฑฐ๋ ๋๋ก๋ ๋ ์ฐ์ํ ์ ๋ก์ท(zero-shot) ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ ํฌ ๊ฒฐ๊ณผ๋ Chronos ๋ชจ๋ธ์ด ๋ค์ํ ๋๋ฉ์ธ์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ณด์ง ๋ชปํ ์์ธก ์์ ์ ๋ํ ์ ๋ก์ท ์ ํ๋๋ฅผ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์์ธก ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋จ์ํํ ์ ์๋ ์ ์ฉํ ๋๊ตฌ๋ก ์๋ฆฌ๋งค๊นํ๊ฒ ํฉ๋๋ค.
๋ด์ฉ
Chornos์ ํน์ง
- ์ค์ผ์ผ๋๊ณผ ์์ํ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ณ์ด ๊ฐ์ ๊ณ ์ ๋ ์ดํ๋ก ํ ํฐํํ์ฌ ๊ธฐ์กด์ ๋ฐฉ์์ ์ด์
- ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ์ต
- ๊ธฐ์กด์ ์์คํจ์์ธ Cross entropy๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉ
- ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ํตํด ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์์ฑ ์ด๋ฌํ ๋ฐฉ์์ผ๋ก zero-shot ์ฑ๋ฅ์ ํฅ์ ์ํด
ํฌ์ธํธ
- ๊ธฐ์กด์ ๋ฐฉ์
- ํฉ์ฑ ๋ฐ์ดํฐ์
- zero-shot
๐ ์๋ก & ๊ฒฐ๋ก & ๊ณ ์ฐฐ
๋ฒ์ญ
์๋ก
์๊ณ์ด ์์ธก์ ์๋งค, ์๋์ง, ๊ธ์ต, ์๋ฃ, ๊ธฐํ ๊ณผํ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์์ฌ ๊ฒฐ์ ์ ํ์์ ์ธ ๊ตฌ์ฑ ์์์ ๋๋ค. ์ ํต์ ์ผ๋ก ์์ธก์ ARIMA ๋ฐ ETS์ ๊ฐ์ ํต๊ณ ๋ชจ๋ธ์ ์ํด ์ฃผ๋๋์์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ ์ด๋ ์ต๊ทผ ๋ฅ๋ฌ๋ ๊ธฐ์ ๋ก์ ์ ํ(Hyndman & Athanasopoulos, 2018; Benidis et al., 2022)์ด ์๊ธฐ ์ ๊น์ง๋ ์ ๋ขฐํ ์ ์๋ ๋๊ตฌ ์ญํ ์ ํด์์ต๋๋ค. ์ด๋ฌํ ์ ํ์ ๋๊ท๋ชจ์ ๋ค์ํ ์๊ณ์ด ๋ฐ์ดํฐ ์์ค์ ๊ฐ์ฉ์ฑ๊ณผ, ๋ฅ ์์ธก ๋ชจ๋ธ์ ๊ฐ์ , ์ฆ ๋๊ท๋ชจ ์๊ณ์ด ์ปฌ๋ ์ ์์ ํจํด์ ์ถ์ถํ๋ ๋ฅ๋ ฅ์ ์ ๋ฆฌํ ์ด์ ์์ธก ๋ฌธ์ (Kolassa & Januschowski, 2019)์ ์ถํ์ ๊ธฐ์ธํ ์ ์์ต๋๋ค. ์ธ์์ ์ธ ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ , ๋ฅ ์์ธก ๋ชจ๋ธ์ ์ฌ์ ํ ๋์ผํ ๋ฐ์ดํฐ์ ์ ๋ํ ํ๋ จ ๋ฐ ์์ธก์ ํ์ค์ ์ธ ๋ฐฉ์ ๋ด์์ ์๋ํฉ๋๋ค. ์์ธก์ ์ํ ์ ์ด ํ์ต(transfer learning, Ye & Dai, 2018) ๋ฐ ๋๋ฉ์ธ ์ ์(domain adaptation, Jin et al., 2022)์ ์ ๋ ํ ์ฐ๊ตฌ๋ค์ด ์์์ง๋ง, ์ด ๋ถ์ผ๋ ์์ง ์๊ณ์ด ์ฐ๊ตฌ์๋ค์๊ฒ ์ค์ํ ๋ชฉํ์ธ ํตํฉ์ ์ด๊ณ ๋ฒ์ฉ์ ์ธ ์์ธก ๋ชจ๋ธ๋ก ์๋ ด๋์ง ๋ชปํ์ต๋๋ค.
์ ๋ก์ท ํ์ต ๊ธฐ๋ฅ์ ๊ฐ์ถ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถํ์ ์๊ณ์ด์ ์ํ โ๊ธฐ์ด ๋ชจ๋ธ(foundation models)โ ๊ฐ๋ฐ์ ๋ํ ๊ด์ฌ์ ๋ถ๋ฌ์ผ์ผ์ผฐ์ต๋๋ค. LLM์ ๋งฅ๋ฝ์์, ์ด๋ฌํ ๊ด์ฌ์ ๋ ๊ฐ์ง ์ฃผ์ ๊ฒฝ๋ก๋ฅผ ํตํด ์ถ๊ตฌ๋์์ต๋๋ค: ์์ฐ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ ํ๋ จ๋ LLM์ ์ง์ ํ๋กฌํํธํ๋ ๋ฐฉ์(Gruver et al., 2023; Xue & Salim, 2023)๊ณผ ์๊ณ์ด ์์ ์ ์ํด LLM์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ์(Zhou et al., 2023a; Jin et al., 2024)์ ๋๋ค.
LLM์ ๋งฅ๋ฝ์์, ์ด๋ฌํ ๊ด์ฌ์ ๋ ๊ฐ์ง ์ฃผ์ ๊ฒฝ๋ก๋ฅผ ํตํด ์ถ๊ตฌ๋์ด ์์ต๋๋ค: ์์ฐ์ด๋ก ์ฌ์ ํ์ต๋ LLM์ ์ง์ ํ๋กฌํํธ๋ฅผ ์ ๊ณตํ๋ ๊ฒ(Gruver et al., 2023; 1 Xue & Salim, 2023)๊ณผ ์๊ณ์ด ์์ ์ ์ํด LLM์ ํ์ธํ๋ํ๋ ๊ฒ(Zhou et al., 2023a; Jin et al., 2024)์ ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๊ฐ ์๋ก์ด ์์ ์ ๋ํ ํ๋กฌํํธ ์์ง๋์ด๋ง ๋๋ ํ์ธํ๋์ ํ์์ฑ, ๋๋ ์๋นํ ๊ณ์ฐ ์์๊ณผ ์ถ๋ก ์๊ฐ์ ์๊ตฌํ๋ ๋๊ท๋ชจ ๋ชจ๋ธ(GPT-3 (Brown et al., 2020), Llama 2 (Touvron et al., 2023) ๋ฑ)์ ๋ํ ์์กด์ฑ๊ณผ ๊ฐ์ ์ค๋ํ ํ๊ณ์ ์ง๋ฉดํฉ๋๋ค. ์ต๊ทผ ๋์ ์ฐ๊ตฌ(Dooley et al., 2023; Das et al., 2023; Rasul et al., 2023; Woo et al., 2024)์์๋ ์ค์ ๋ฐ/๋๋ ํฉ์ฑ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ์ฝํผ์ค์ ์ ๊ตํ ์๊ณ์ด ํนํ ์ค๊ณ๋ฅผ ์ ์ฉํ์ฌ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๋ ์ฐ๊ตฌ๋ ์งํํ๊ณ ์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ํ ๊ฑธ์ ๋ฌผ๋ฌ์์ ๋ค์๊ณผ ๊ฐ์ ์ง๋ฌธ์ ๋์ง๋๋ค: ๋ค์ ํ ํฐ์ ์์ธกํ๋ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋ค์ ๊ฐ์ ์์ธกํ๋ ์๊ณ์ด ์์ธก ๋ชจ๋ธ ๊ฐ์ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด๋ ๋ฌด์์ธ๊ฐ์? ์ ํํ ์ฌ์ ์์ ์ค๋ ํ ํฐ๊ณผ ์ผ๋ฐ์ ์ผ๋ก ์ฐ์์ ์ธ ๋ฌดํํ ๋๋ฉ์ธ์์ ์ค๋ ๊ฐ์ด๋ผ๋ ๋ช ๋ฐฑํ ๊ตฌ๋ถ์๋ ๋ถ๊ตฌํ๊ณ , ๋ ๋ ธ๋ ฅ ๋ชจ๋ ๊ทผ๋ณธ์ ์ผ๋ก ๋ฏธ๋ ํจํด์ ์์ธกํ๊ธฐ ์ํด ๋ฐ์ดํฐ์ ์์ฐจ์ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ข์ ์ธ์ด ๋ชจ๋ธ์ด๋ผ๋ฉด ์๊ณ์ด์์๋ โ๊ทธ๋ฅ ์๋โํด์ผ ํ์ง ์์๊น์? ์ด ์์งํ ์ง๋ฌธ์ ์๊ณ์ด ํนํ ์์ ์ ํ์์ฑ์ ์๋ฌธ์ ์ ๊ธฐํ๋๋ก ์ฐ๋ฆฌ๋ฅผ ์๊ทนํ์ผ๋ฉฐ, ์ด์ ๋ํ ๋ต์ ์ฐพ๋ ๊ณผ์ ์์ ์ฐ๋ฆฌ๋ ์๊ณ์ด ์์ธก์ ์ํด ์ต์ํ์ผ๋ก ์กฐ์ ๋ ์ธ์ด ๋ชจ๋ธ๋ง ํ๋ ์์ํฌ์ธ Chronos๋ฅผ ๊ฐ๋ฐํ๊ฒ ๋์์ต๋๋ค. Chronos๋ ์ค์ ๊ฐ์ ๋จ์ํ๊ฒ ์ค์ผ์ผ๋งํ๊ณ ์์ํํ์ฌ ์๊ณ์ด์ ์ด์ฐ์ ์ธ ๋น(bin)์ผ๋ก ํ ํฐํํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก, ์ฐ๋ฆฌ๋ ๋ชจ๋ธ ์ํคํ ์ฒ ๋ณ๊ฒฝ ์์ด ์ด โ์๊ณ์ด ์ธ์ดโ์ ๊ธฐ์ฑ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ์ํฌ ์ ์์ต๋๋ค(Chronos์ ๊ฐ๋ต์ ์ธ ๋ฌ์ฌ๋ ๊ทธ๋ฆผ 1 ์ฐธ์กฐ). ๋๋๊ฒ๋, ์ด ๊ฐ๋จํ ์ ๊ทผ ๋ฐฉ์์ ํจ๊ณผ์ ์ด๊ณ ํจ์จ์ ์์ด ์ ์ฆ๋์์ผ๋ฉฐ, ์ด๋ ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ์ต์ํ์ ์์ ์ผ๋ก ๊ด๋ฒ์ํ ์๊ณ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ์ ์ฌ๋ ฅ์ ๊ฐ์กฐํฉ๋๋ค.
์ ์ฉํ ๋ฒ์ฉ ์๊ณ์ด ์์ธก ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๋ฐ ์์ด์, ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ ๋ถ์กฑ(์๊ณผ ์ง ๋ชจ๋)์ ๋ชจ๋ธ๋ง ํ๋ ์์ํฌ๋ณด๋ค arguably ๋ ์ค์ํฉ๋๋ค. Chronos๋ฅผ ํ๋ จ์ํค๋ ๋ฐ ์ฌ์ฉํ ํฌ๊ด์ ์ธ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ๋ชจ์ ์ธ์๋, ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ํต์ฌ ์ธก๋ฉด์ TSMixup๊ณผ KernelSynth๋ฅผ ํฌํจํ ๋ฐ์ดํฐ ์ฆ๊ฐ ์ ๋ต์ ํตํฉ์ ๋๋ค. TSMixup์ ์๋ก ๋ค๋ฅธ ํ๋ จ ๋ฐ์ดํฐ์ ์์ ๊ธฐ๋ณธ ์๊ณ์ด ์ธํธ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ๊ณ , ์ด๋ค์ ๋ณผ๋ก ์กฐํฉ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์๊ณ์ด์ ์์ฑํฉ๋๋ค. KernelSynth๋ ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์ฌ ์ปค๋ ํจ์๋ฅผ ๋ฌด์์๋ก ๊ตฌ์ฑํ์ฌ ํฉ์ฑ ์๊ณ์ด์ ์์ฑํฉ๋๋ค. ์ด๋ฌํ ๊ธฐ๋ฒ๋ค์ ์๊ณ์ด ์์ธก์์ ์์ ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ด์ฌ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ์ฌ ๋ชจ๋ธ์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
42๊ฐ์ ๋ฐ์ดํฐ์ ์ ๊ฑธ์น ํฌ๊ด์ ์ธ ํ๊ฐ๋ Chronos๋ฅผ ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ์์ธก ๋ชจ๋์ ๋ํ ๋ฒค์น๋งํฌ๋ก ํ๋ฆฝํ๋ฉฐ, ์ ํต์ ์ธ ๋ชจ๋ธ๊ณผ ์์ ๋ณ ๋ฅ๋ฌ๋ ์ ๊ทผ ๋ฐฉ์ ๋ชจ๋๋ฅผ ๋ฅ๊ฐํฉ๋๋ค.
์ฃผ๋ชฉํ ๋งํ๊ฒ, Chronos๋ ๋ณ๋์ ์์ ๋ณ ์กฐ์ ์์ด ์ฆ์ ์ธ์์ ์ธ ์ ๋ก์ท ์์ธก ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ์ ํ๋์ ์๋์ ์ผ๋ก ์์ ๋ชจ๋ธ ํฌ๊ธฐ๋ ์ ๋ก์ท ์์ธก ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํด ๋ ํฌ๊ณ ๊ณ์ฐ์ ์ผ๋ก ๋ถ๋ด์ด ํฐ ๋ชจ๋ธ๋ณด๋ค ์ ํธ๋๋ ๋์์ผ๋ก ์๋ฆฌ๋งค๊นํ๊ฒ ํฉ๋๋ค. ๊ณ ์ ๋ ์ดํ๋ฅผ ํตํด ์๋ํ๋ ์ธ์ด ๋ชจ๋ธ๋ก์์ ๋ณธ์ง ๋๋ถ์, Chronos๋ LLM์ ๋ฏธ๋ ๋ฐ์ ๊ณผ ์ํํ๊ฒ ํตํฉ๋ ์ ์์ผ๋ฉฐ, ์ด๋ ์ผ๋ฐํ๋ ์๊ณ์ด ๋ชจ๋ธ๋ก์ ์ถ๊ฐ ๊ฐ๋ฐ์ ์ด์์ ์ธ ํ๋ณด๊ฐ ๋ฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋๋จธ์ง ๋ถ๋ถ์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋ฉ๋๋ค. 2์ ์์๋ ์๊ณ์ด ์์ธก ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ๋ํ ๋ฐฐ๊ฒฝ์ ์๊ฐํ๊ณ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ๋ ผ์ํฉ๋๋ค. 3์ ์์๋ ์๊ณ์ด์ ์ํ ์ ์๋ ์ธ์ด ๋ชจ๋ธ๋ง ํ๋ ์์ํฌ์ธ Chronos๋ฅผ ์ค๋ช ํฉ๋๋ค. 4์ ์์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๊ณผ ํฉ์ฑ ์๊ณ์ด ์์ฑ ํ๋ก์ธ์ค๋ฅผ ๋ ผ์ํฉ๋๋ค. 5์ ์์๋ ์ฃผ์ ๊ฒฐ๊ณผ์ ๋ค์ํ ์ค๊ณ ์ ํ์ ๋ํ ์๊ฒฉํ ๋ถ์์ ์ ์ํฉ๋๋ค. 6์ ์์ ํฅํ ๋ฐฉํฅ์ ๋ ผ์ํ๊ณ 7์ ์์ ๋ ผ๋ฌธ์ ๋ง๋ฌด๋ฆฌํฉ๋๋ค. ๋ถ๋ก์ ์ถ๊ฐ ์๋ฃ๊ฐ ์ ์๋ฉ๋๋ค.
๊ฒฐ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ๋ฏธ๋๋ฉ๋ฆฌ์คํธ์ ๊ด์ ์์ ์ผ๋ฐํ๋ ์ฌ์ ํ๋ จ๋ ์์ธก ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๋ฌธ์ ์ ์ ๊ทผํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ์ ํ๋ จ ์ ์ฐจ๋ฅผ ์๊ณ์ด ์์ธก์ ์ ์ฉํ์ฌ, ์์ธก์ ์ํด ์๊ณ์ด ํน์ ํน์ง์ด๋ ์ํคํ ์ฒ๊ฐ ํ์ํ๋ค๋ ํต๋ ์ ๋์ ํฉ๋๋ค. ์ด๋ ์ญ์ค์ ์ผ๋ก ์๊ฐ์ ๋ ๋ฆฝ์ ์ธ ์๊ณ์ด์ ์ํ ์ธ์ด ๋ชจ๋ธ๋ง ํ๋ ์์ํฌ์ธ Chronos๋ฅผ ํ์์์ผฐ์ต๋๋ค. Chronos์ ํน์ง์ ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ์์ ํธํ์ฑ์ด๋ฉฐ, ์ค์ผ์ผ๋ง ๋ฐ ์์ํ๋ฅผ ํตํ ํ ํฐํ๋ผ๋ ์ต์ํ์ ์์ ๋ง ์๊ตฌํฉ๋๋ค. ์ฐ๋ฆฌ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋๋ฉ์ธ ๋ด ์ฑ๋ฅ ์ธก๋ฉด์์ ๊ธฐ์กด์ ๋ก์ปฌ ๋ชจ๋ธ ๋ฐ ์์ ๋ณ ๋ฅ๋ฌ๋ ๊ธฐ์ค ๋ชจ๋ธ์ ์๋นํ ๋ฅ๊ฐํฉ๋๋ค. ๋์ฑ ์ฃผ๋ชฉํ ๋งํ ์ ์, Chronos ๋ชจ๋ธ์ด ๋ณด์ง ๋ชปํ ๋ฐ์ดํฐ์ (์ ๋ก์ท ์ฑ๋ฅ)์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ผ๋ฉฐ, ํด๋น ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋ ์ต๊ณ ์ ๋ฅ๋ฌ๋ ๊ธฐ์ค ๋ชจ๋ธ๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ด๊ณ , ๋ฏธ์ธ ์กฐ์ ์ ํตํ ์ถ๊ฐ ๊ฐ์ ์ ์ ๋งํ ์ฆ๊ฑฐ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋๋ค.
์ฐ๋ฆฌ์ ๊ธฐ์ฌ๋ ๋ ๊ฐ์ง ์ฃผ์ ์ธก๋ฉด์์ ์ค์ํฉ๋๋ค. ์ฒซ์งธ, ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ์๊ณ์ด ํน์ ์ฌ์ฉ์ ์ ์ ์์ด ์์ธก์ ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ LLM ๋ถ์ผ์ ๋ฐ์ ๊ณผ ๋ ๋์ ๋ฐ์ดํฐ ์ ๋ต์ ํ์ฉํ์ฌ ๊ฐ์ํ๋ ๋ฐ์ ์ ์ํ ๊ธธ์ ์ด์ด์ค๋๋ค. ๋์งธ, ์ค์ง์ ์ธ ์์ค์์ Chronos ๋ชจ๋ธ์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋๊ท๋ชจ(์์ธก ๊ธฐ์ค) ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ด ์ ํ๋๋ฅผ ํฌ์ํ์ง ์๊ณ ์์ธก ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋จ์ํํ ์ ์์์ ์์ฌํ๋ฉฐ, ๊ฐ๋ณ ์์ ์ ๋ํ ๋ชจ๋ธ ํ๋ จ ๋ฐ ํ๋์ ํฌํจํ๋ ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์ ๋ํ ์ถ๋ก ์ ์ฉ ๋์์ ์ ๊ณตํฉ๋๋ค.
๊ณ ์ฐฐ
Chronos๋ ์ค์ฉ์ ์ธ ์ฌ์ ํ์ต๋ ์๊ณ์ด ์์ธก ๋ชจ๋ธ์ ์ด๊ธฐ ๋ ธ๋ ฅ ์ค ํ๋๋ก, ํฌ๊ด์ ์ธ ํ ์คํธ ๋ฐ์ดํฐ์ ๋ชจ์์์ ์ฃผ๋ชฉํ ๋งํ ์ ๋ก์ท(zero-shot) ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ฐ๋ฆฌ๊ฐ ์๋์์ ๋ ผ์ํ ๋ช ๊ฐ์ง ๋ค์ํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ด์ด์ค๋๋ค.
6.1 ์ ๋ก์ท ๋จ๋ณ๋ ์์ธก์ ๋์ด์
์คํ์์ ์ฐ๋ฆฌ๋ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์ ๋ํด ์ ๋ก์ท ๋ฐฉ์์ผ๋ก Chronos๋ฅผ ํ๊ฐํ์ต๋๋ค. ์ด๋ฌํ ์ค์ ์ ์ ๋ก์ท Chronos ๋ชจ๋ธ์ด ํน์ ์์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋นํด ๊ฒฝ์๋ ฅ์ด ์์์ ๊ฐ์กฐํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ธ-๋๋ฉ์ธ(in-domain) ๋ฐ ์ ๋ก์ท ๊ฒฐ๊ณผ ๋ชจ๋ ์น์ 5.5.2์์ ๊ฐ๋ตํ๊ฒ ํ์ํ ํ์ธํ๋(fine-tuning)์ ํตํด ๋์ฑ ํฅ์๋ ์ ์์ ๊ฒ์ผ๋ก ์์ํฉ๋๋ค. ์ด๋ ๋ก์ฐ๋ญํฌ ์ด๋ํฐ(low-rank adapters, LoRA) (Hu et al., 2022; Zhang et al., 2023)์ ๊ธฐ๋ฐํ ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ํ๋ ์ ์์ต๋๋ค. ๋์์ ์ผ๋ก, Chronos๋ ์ปจํฌ๋ฉ(conformal) ๋ฐฉ๋ฒ (Romano et al., 2019; Stankeviciute et al., 2021; Xu & Xie, 2021)์ ์ฌ์ฉํ์ฌ ํน์ ์์ ์ ๋ํด ๋ณด์ ๋ ์ ์์ต๋๋ค. Chronos๋ ์ปจํฌ๋ฉ ์์ธก(conformal prediction)์ ๋งฅ๋ฝ์์ ํนํ ๋งค๋ ฅ์ ์ธ๋ฐ, ์ด๋ ํ๋ จ ์ธํธ๊ฐ ํ์ํ์ง ์์ผ๋ฏ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณด์ ์ ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์ค์ ์๊ณ์ด ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๊ตฌ์ฑํ๋ ๊ท ์ผํ๊ฒ ์ํ๋ง๋ ์๊ณ์ด์ ๋จ๋ณ๋ ์์ธก์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ค์ ์์ธก ์์ ์ ์ข ์ข ๊ณ ๋ คํด์ผ ํ ์ธ์ ์ ๋ณด(exogenous information)๋ฅผ ํฌํจํ๊ฑฐ๋ ๋ถ๊ท์นํ๊ฒ ์ํ๋ง๋ ์๊ณ์ด์ ๋ชจ๋ธ๋ง์ ํ์๋ก ํ ์ ์์ต๋๋ค (Rubanova et al., 2019; Ansari et al., 2023).
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ค์ ์์ธก ์์ ์๋ ๊ณ ๋ ค๋์ด์ผ ํ๋ ์ธ์ ์ ๋ณด๊ฐ ํฌํจ๋๊ฑฐ๋ ๋ถ๊ท์น์ ์ผ๋ก ์ํ๋ง๋ ์๊ณ์ด ๋ชจ๋ธ๋ง์ ์๊ตฌํ ์ ์์ต๋๋ค (Rubanova et al., 2019; Ansari et al., 2023). ์ธ์ ์ ๋ณด์ ํ ์์๋ ์๊ฐ ๋ ๋ฆฝ์ (์: ์ ํ์ ์์)์ด๊ฑฐ๋ ์๊ฐ ๊ฐ๋ณ์ (์: ์ ํ์ด ํ๋งค๋๋ ์์ผ)์ธ ๊ณต๋ณ๋์ ๋๋ค. ๋ ๋ค๋ฅธ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋ ๋ฌธ์ ๋ ๋ค๋ณ๋ ์์ธก์ผ๋ก, ํ ์๊ณ์ด(์: ๊ธ๋ฆฌ)์ ๊ณผ๊ฑฐ ๊ฐ์ด ๋ค๋ฅธ ์๊ณ์ด(์: ์ฃผํ ๊ฐ๊ฒฉ)์ ์์ธก์ ์ํฅ์ ๋ฏธ์น ์ ์์ต๋๋ค. ๊ณต๋ณ๋ ๋๋ ๋ค๋ณ๋ ์ฐจ์์ ์๋ ์์ ๋ง๋ค ํฌ๊ฒ ๋ค๋ฅผ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ ๊ฐ๋ฅํ ์กฐํฉ์ ์ฒ๋ฆฌํ ์ ์๋ ๋จ์ผ ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ญ๋๋ค. ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ ์ ๊ณต๋ณ๋์ ์ฌ์ ํ๋ จ๋ ์์ธก ๋ชจ๋ธ์ ์ฃผ์ ํ๋ ์์ ๋ณ ์ด๋ํฐ๋ฅผ ํ๋ จํ๋ ๊ฒ์ ํฌํจํ ์ ์์ต๋๋ค (Rahman et al., 2020). ๋ค๋ฅธ ์ต์ ์ผ๋ก๋ Chronos์ LightGBM (Ke et al., 2017)๊ณผ ๊ฐ์ด ๊ณต๋ณ๋ ์ฒ๋ฆฌ์ ๋ฐ์ด๋ ๋ค๋ฅธ ๊ฒฝ๋ ๋ชจ๋ธ์ ์คํํน ์์๋ธ(Ting & Witten, 1997)์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
์ง๊ธ๊น์ง ์ฐ๋ฆฌ์ ํ์์ ์๊ณ์ด ์์ธก ๋ฌธ์ ์ ์ง์ค๋์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ถ๋ฅ, ํด๋ฌ์คํฐ๋ง, ์ด์ ํ์ง์ ๊ฐ์ ๋ค๋ฅธ ์ฌ๋ฌ ์๊ณ์ด ๋ถ์ ์์ (Dau et al., 2018; Wu & Keogh, 2021; Ismail Fawaz et al., 2019; Goswami et al., 2024)์ Chronos์ ๊ฐ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๋ก๋ถํฐ ์ ์ฌ์ ์ผ๋ก ์ด์ ์ ์ป์ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ Chronos-T5 ๋ชจ๋ธ์ ์ธ์ฝ๋์ ์ํด ํ์ต๋ ํํ์ด ๋ณดํธ์ ์ด๋ฉฐ ์ด๋ฌํ ์์ ์ ์ฌ์ฉ๋ ์ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ํ Chronos-T5 ํํ์ ํ์์ ํฅ๋ฏธ๋ก์ด ํฅํ ์ฐ๊ตฌ๋ฅผ ๊ตฌ์ฑํ ๊ฒ์ ๋๋ค.
6.2 ์ถ๋ก
๋ ํฐ Chronos ๋ชจ๋ธ์ ์ ์ฌ์ ์ธ ํ๊ณ๋ ์์ ๋ณ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋นํด ์ถ๋ก ์๋์ ๋๋ค. ๊ทธ๋ฆผ 17์ ๋ฐ์ดํฐ์ ์ ๋ฐ์ ๊ฑธ์ณ ํ๊ท ํ๋ ๋จ์ผ ์๊ณ์ด์ ๋ํ ์์ธก ์์ฑ์ ์ถ๋ก ์๊ฐ์ ๋ณด์ฌ์ค๋๋ค. ๋ ํฐ Chronos ๋ชจ๋ธ์ ์ถ๋ก ์๋๋ ์ผ๋ถ ํต๊ณ์ ๋ก์ปฌ ๋ชจ๋ธ๊ณผ ์ ์ฌํฉ๋๋ค. ๋ํ, Chronos ๋ชจ๋ธ์ ์์ ๋ณ ๋ชจ๋ธ๋ณด๋ค ๋๋ฆฌ์ง๋ง, ๊ธ์ง๋ ์ ๋๋ก ๋๋ฆด ๋งํผ ํฌ์ง๋ ์์ต๋๋ค. ๋์ฑ์ด, ์์ ๋ณ ๋ชจ๋ธ์ ๊ฐ ์์ ์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ํ๋ จ๋์ด์ผ ํ๋ฉฐ, ์ด๋ ์ถ๊ฐ์ ์ธ ์๊ฐ๊ณผ ์ปดํจํ ์์์ ์๊ตฌํฉ๋๋ค. ๋์กฐ์ ์ผ๋ก, Chronos ๋ชจ๋ธ์ ๋ค์ํ ์ด๋ ฅ ๊ธธ์ด, ๋น๋, ์์ธก ์งํ์ ๋ฐ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๋ฐฐํฌ๋ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ ๋ฐฐํฌ๋ฅผ ํจ์ฌ ๋ ์ฝ๊ฒ ๋ง๋ค๊ณ ์์ธก ํ์ดํ๋ผ์ธ์ ๋ํญ ๋จ์ํํ์ฌ ์์ ๋ณ ํ๋ จ์ ํ์์ฑ์ ์์ฑ๋๋ค.
์๊ณ์ด์ ์ํ ์ธ์ด ๋ชจ๋ธ๋ง ํ๋ ์์ํฌ๋ฅผ ํ์ฉํจ์ผ๋ก์จ, ์ฐ๋ฆฌ๋ NLP ์ปค๋ฎค๋ํฐ์ ๋ฐ์ ์ Chronos ๋ชจ๋ธ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ต์ Ampere GPU์ ์ต์ ํ๋ CUDA ์ปค๋, ์์ํ(Dettmers et al., 2022), ๊ทธ๋ฆฌ๊ณ ์ถ์ธก์ (Leviathan et al., 2023) ๋ฐ ๋ฏธ๋ฆฌ๋ณด๊ธฐ(Fu et al., 2023) ๋์ฝ๋ฉ์ ํฌํจํ ๋ ๋น ๋ฅธ ๋์ฝ๋ฉ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ์ถ๋ก ์๋๋ฅผ ๊ฐ์ ํ ์ ์์ต๋๋ค. ์ฅ๊ธฐ ์ปจํ ์คํธ ์ธ์ด ๋ชจ๋ธ(Sun et al., 2022; Dao, 2023)์ ๋ฐ์ ์ ๊ณ์ ํจํด์ ํฌ์ฐฉํ๊ธฐ ์ํด ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์๊ตฌํ๋ ๊ณ ๋น๋ ๋ฐ์ดํฐ์ ์ ๋ํ Chronos ๋ชจ๋ธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ ํ๋ ๋ฐ ๋์์ด ๋ ์ ์์ต๋๋ค. ์จ๋ ํ๋, ๋น ์์น(Freitag & Al-Onaizan, 2017), Top-K ์ํ๋ง(Fan et al., 2018), ํต ์ํ๋ง(Holtzman et al., 2019)๊ณผ ๊ฐ์ด ํ ์คํธ ์ธ์ด ๋ชจ๋ธ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ค๋ฅธ ๊ธฐ๋ฒ๋ค์ ์์ธก ํ์ง์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ์ด๋ ํ์ฌ ์ฌ๋ฌ ์ํ์ ๋ํ ์ง๊ณ๋ฅผ ์๊ตฌํ๋ ํฌ์ธํธ ์์ธก์ ์๋์ ํ์ง์ ๊ฐ์ ํ๋ ๋ฐ ํนํ ๋์์ด ๋ ์ ์์ต๋๋ค.
6.3 ๋ฐ์ดํฐ
์ฐ๋ฆฌ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ๋๊ท๋ชจ ์๊ณ์ด ๋ฐ์ดํฐ ์ฝํผ์ค์์ ๋ ํฐ ๋ชจ๋ธ์ ํ๋ จํ๋ ๊ฒ์ด ์ฐ์ํ ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ์ฑ๋ฅ์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๊ฐ์กฐํฉ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , NLP์ ๋์กฐ์ ์ผ๋ก, ๊ณ ํ์ง์ ๊ณต๊ฐ ์๊ณ์ด ๋ฐ์ดํฐ๋ ์ฌ์ ํ ์ ํ์ ์ ๋๋ค. ์ด๋ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋๊ท๋ชจ ์ฝํผ์ค์์ ๋ชจ๋ธ์ ํ๋ จํ ๋ ๋๋ ๋ง๋ฅผ ์ ๊ธฐํฉ๋๋ค. ์ฆ, ํ๋ จ์ ์ํด ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ ์ ํํ๋ฉด ์ ๋ก์ท ํ๊ฐ๋ฅผ ์ํ ๋ฐ์ดํฐ์ ์ด ์ค์ด๋ญ๋๋ค. ์๊ณ์ด ์ปค๋ฎค๋ํฐ๋ Chronos์ ๊ฐ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์๋ ๋ ํฐ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ ๊ฐ์ฉ์ฑ์ผ๋ก๋ถํฐ ํฐ ์ด์ ์ ์ป์ ๊ฒ์ ๋๋ค. ํน์ ๋๋ฉ์ธ(Emami et al., 2023; Liu et al., 2023) ๋ฐ ๊ต์ฐจ ๋๋ฉ์ธ(Borchert et al., 2022)์ ์ํ ๋๊ท๋ชจ ์๊ณ์ด ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ๋ํ ์ต๊ทผ์ ๋ ธ๋ ฅ๋ค์ด ์์์ง๋ง, ์ถ๊ฐ์ ์ธ ํฌ์๊ฐ ํ์ํฉ๋๋ค.
๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ๋ค๋ฅธ ๋ฐฉํฅ์ ํฉ์ฑ ์๊ณ์ด์ ์์ฑํ๋ ๋ ๋์ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์ฉ์ฑ์ ๋ช ํํ๊ฒ ์ ์ฆํ๊ณ , ํ๋ จ ๋ฐ์ดํฐ์ ํตํฉ๋ ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฐ์ ํจ์ผ๋ก์จ ์ด ๋ฐฉํฅ์ผ๋ก ์๋นํ ๋ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์กฐ์ฐจ๋ ํฉ๋ฆฌ์ ์ธ ์์ธก ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ชจ๋ธ์ ์คํจ ๋ชจ๋๋ฅผ ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ค์ ๋ฐ์ดํฐ์ ํฉ์ฑ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํ ๊ฐ์ ๋ฐฉ์์ ์ ์ํ ์ ์์ต๋๋ค.
๋ด์ฉ
์๋ก
ARIMA, ETS โ DL ์ ํ์ ๊น์ง ์ง๋ฐฐ์ ์ด์์ DL๋ก ์ ํ์ดํ ์ธ์์ ์ธ ์ฑ๋ฅ ํฅ์์ด ์๋๋ผ๋, ๋์ผํ ๋ฐ์ดํฐ์ ๋ํ ํ๋ จ ๋ฐ ์์ธก์ด ํ์ค์ ์ธ ๋ฐฉ์์์์ ์๋ํจ Transfer Learning, Domatin Adaptation๊ณผ ๊ฐ์ ์ฐ๊ตฌ๊ฐ ์์์ง๋ง ์๊ณ์ด์ ์ค์ํ ๋ชฉํ์ธ ํตํฉ์ ์ด๊ณ ๋ฒ์ฉ์ ์ธ ๋ชจ๋ธ์ ์ค๊ณ์๋ ํ๊ณ์ ์ด ์์
LLM์ ๋ฑ์ฅ์ผ๋ก zero-shot์ ๋์๊ฐ๋ฅํ foundation ๋ชจ๋ธ์ ๋ํด์ ๊ด์ฌ์ด ์ฆ๊ฐํ์๋ค.
- ์์ฐ์ด๋ฅผ ์ฌ์ฉํ์ฌ LLM์ ์ง์ ํ๋กฌํํ ํ๋ ๋ฐฉ์
- ์๊ณ์ด ์์ ์ ์ํด LLM์ fine tunningํ๋ ๋ฐฉ์ โ ์ด๋ ํ๋กฌํํธ ์์ง๋์ด๋ง, ํ์ธํ๋์ ํ์์ฑ ๊ทธ๋ฆฌ๊ณ ๋ง์ ๊ณ์ฐ์์์ด ํ์ํ GPT-3๋ llama2๋ฑ์ ๋ํด ์์กด์ฑ์ด ์กด์ฌํ๋ค.
์ต๊ทผ์๋ ์ค์ ํน์ ํฉ์ฑ ์๊ณ์ด์ ํตํด์ ์๊ณ์ด์ ํนํ๋ ํธ๋์คํฌ๋จธ ์ค๊ณ๋ฅผ ์งํํ๋ ์ฐ๊ตฌ๋ ์งํ๋๊ณ ์์
์ด ๋ ผ๋ฌธ์ ๋ค์ ํ ํฐ์ ์์ธกํ๋ ์์ฐ์ด ๋ชจ๋ธ vs ๋ค์ ๊ฐ์ ์์ธกํ๋ ์๊ณ์ด ๋ชจ๋ธ์ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด์ ์ ๋ํด์ ๊ณ ์ฐฐํจ
- ์ ํํ ์ฝํผ์ค vs ๋ฌดํํ ๋๋ฉ์ธ์๋ ๋ถ๊ตฌํ๊ณ โ ๋ฏธ๋ ํจํด์ ์์ธกํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋๊ฒ์ ๋ชฉํ๋ก ํ๋๊ฒ์ ๊ฐ์ ๋ฐ๋ผ์ ๊ณผ์ฐ ์๊ณ์ด์ ํนํ๋ ์์ ์ด๋ ์ค๊ณ๊ฐ ํ์์์๊น์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ํ๊ฒ ํจ
Chronos๋ ์๊ณ์ด ์์ธก์ ์ํด ์ต์ํ์ผ๋ก LLM์ ์์ ํ ๋ชจ๋ธ์ด๋ฉฐ, ์๊ณ์ด ์์ธก์ ์ํด ์ค์ ๊ฐ์ ๋จ์ํ๊ฒ ์ค์ผ์ผ๋ง ๋ฐ ์์ํ๋ฅผ ํตํด ์๊ณ์ด์ ์ด์ฐ์ ์ธ bin์ผ๋ก ํ ํฐํ ํ๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฐฉ์์ ์๊ณ์ด์ โ์๊ณ์ด ์ธ์ดโ๋ก์ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ์ํฌ ์ ์๋๋ก ํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋๋๋๋ก ํจ๊ณผ์ ์
๋ฐ๋ผ์ ๋ชจ๋ธ๋ณด๋ค๋ ๊ธฐ๋ฒ๋ค์ด ์ค์ํ๋ฉฐ, ๋ฐ์ดํฐ ๋ถ์กฑ์ ํด๊ฒฐํ๊ธฐ ์ํด ์๋์ ์ฆ๊ฐ์ ์ ์ฉํ์๋ค.
- TSMixup : ์๋ก ๋ค๋ฅธ ํ๋ ค์ ์์ ๊ธฐ๋ณธ ์๊ณ์ด ์ธํธ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ๊ณ , ๋ณผ๋ก์กฐํฉ์ ํตํ ์๋ก์ด ์๊ณ์ด์ ์์ฑํ๋ ๋ฐฉ์
- KernelSynth : ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ํตํด ์ปค๋ ํจ์๋ฅผ ๋ฌด์์๋ก ๊ตฌ์ฑํ์ฌ ํฉ์ฑ ์๊ณ์ด์ ์์ฑ โ ์ด๋ฌํ ์ ๊ทผ์ผ๋ก ๋ถ์กฑํ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ํด ์ผ๋ฐํ์ ๋ชจ๋ธ์ ๊ฒฌ๊ณ ์ฑ ๋ ๋ค ์ฑ๊ธธ ์ ์๋๋ก ํ์๋ค.
๋ณ๋์ ํ์ธํ๋์์ด ์๋นํ zero-shot์ฑ๋ฅ์ ๊ฐ์ง๋ฉฐ, ๋ชจ๋ธ์ด ๊ฐ๋ณ๊ธฐ ๋๋ฌธ์ ํจ๊ณผ์ ์ด๋ค. ์ถ๊ฐ์ ์ผ๋ก ๊ณ ์ ๋ ์ดํ๋ฅผ ์ฌ์ฉํ๋ ์ธ์ด ๋ชจ๋ธ๋ก์ ์ ๊ทผํ์๊ธฐ ๋๋ฌธ์, LLM์ ํตํฉ๋ ๊ฐ๋ฅํ๋ค.
Figure 1
๊ฒฐ๋ก
์๊ณ์ด ํนํ ๋ชจ๋ธ์ ๋ง๋๋๊ฒ์ ๋ฐ๋๋ก ์ ๊ทผํ๋ฉฐ, ๋ชจ๋ ์ธ์ด๋ชจ๋ธ์ ๋ํด ํธํ๊ฐ๋ฅํ๋ฉฐ ์ด๋ ์ต์ํ์ ์์ ์ ํตํด ์ด๋ฃจ์ด์ง๋ค.
- ์ค์ผ์ผ๋ง๊ณผ ์์ํ โ ํ ํฐํ ํ์ธํ๋์ ํ์ง ์๊ณ ๋ ์ธ์์ ์ธ zero-shot์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํ์ธํ๋์ ์งํํ๋ฉด ์ผ๋ง๋ ์ข์์ง์ ๋ํด์ ๊ธฐ๋ํ ์ ์์
Chronos๋
- ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์๊ณ์ด์ ์ ์ฉํ ์ ์์์ ๋ณด์ฌ์ค
- ์์ธก ํ์ดํ๋ผ์ธ์ ๋จ์ํ ์ํฌ ์ ์์(๋ชจ๋ธ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉด ๋๊ธฐ์) โ ์ถ๋ก ์ ๋ํด ์๋ก์ด ๊ด์ ์ผ๋ก ์ ๊ทผํ ์ ์๋๋ก ํจ
ํฌ์ธํธ
์๋ก
ARIMA ์๊ณ์ด์
์๊ธฐํ๊ท(AR) + ์ด๋ํ๊ท (MA) + ์ฐจ๋ถ(I: differencing)์ผ๋ก ์ค๋ช ํ๋ ๊ณ ์ ์ ์ธ ํต๊ณ๋ชจ๋ธ ๋ณดํต $ARIMA(p, d, q)$๋ก ํ๊ธฐํ๋ฉฐ, d๋ฒ ์ฐจ๋ถ์ผ๋ก ์ ์์ฑ์ ํ๋ณดํ๋ค ์๊ธฐ์๊ด์ ๋ชจ๋ธ๋งํจ(ACF/PACF)
- ๊ฐ์ : ๋ฐ์ดํฐ์๊ฐ ์์๋ ์ ์๋, ํด์ ๊ฐ๋ฅ์ฑ(์๊ธฐ์๊ด), ์์ธก๊ตฌ๊ฐ์ ์ด๋ก ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅ
- ํ๊ณ : ๊ฐํ ๋น์ ํ & ๋ณต์กํ ํจํด์๋ ์ฝํจ, ๊ณ์ ์ฑ ๋ฐ ๊ตฌ์กฐ๋ณํ๊ฐ ์์ผ๋ฉด(์์ฐจ๊ฐ ๋น์ ๊ท ํน์ ์๊ธฐ์๊ด์ด ๋จ์ผ๋ฉด) ์ฑ๋ฅ์ด ํ๋ค๋ฆด ์ ์์
- ์๊ธฐํ๊ท(AR, p : ํ์ฌ๊ฐ์ ์ค๋ช ํ๊ธฐ ์ํด ๊ณผ๊ฑฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ช๊ฐ๊น์ง ๋ณผ ๊ฒ์ธ์ง) : ๊ณผ๊ฑฐ์ ์๊ธฐ์์ ์ด ํ์ฌ์์ ์๊ธฐ์์ ์ ๊ฒฐ์
- ์ฐจ๋ถ(I, d : ๋ช๋ฒ์ด๋ ๋บ๊ฑด์ง) : โ์ ์์ฑโ์ ๋ง์ถ๊ธฐ ์ํด ํ์ฌ ๊ฐ์์ ๊ณผ๊ฑฐ ๊ฐ์ ๋นผ๋ ๊ฒ. ์ด๋ ๋ฐ์ดํฐ๊ฐ ์ฐ์ํฅ์ด๊ฑฐ๋ ๊ณ์ ์ฑ์ด ์์ผ๋ฉด ํต๊ณ์ ๋ถ์์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์, ์ฐจ๋ถ์ ํตํด ๋ฐ์ดํฐ์ ํ๊ท ๋ฐ ๋ถ์ฐ์ ์ผ์ ํ๊ฒ ๋ง๋๋๊ฒ
- ์ด๋ํ๊ท (MA, q : ๊ณผ๊ฑฐ์ ์ค์ฐจ๋ฅผ ๋ช ๊ฐ๊น์ง ๋ฐ์ํ ๊ฒ์ธ๊ฐ) : ๊ณผ๊ฑฐ์ ์์ธก์ค์ฐจ๊ฐ ํ์ฌ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ
- ACF(์๊ธฐ์๊ดํจ์) : ์์ฐจ์ ๋ฐ๋ฅธ $y_t$์ $y_{t-k}$์ฌ์ด์ ์๊ด๊ด๊ณ ์ธก์ , MA(q)์ ์ฐจ์๋ฅผ ๊ตฌํ๊ธฐ ์ํด ์ฌ์ฉ. ACF๊ทธ๋ํ๊ฐ ํน์ ์์ ์ดํ์ 0์ผ๋ก ๊ฐ์๊ธฐ ๋จ์ด์ง๋ค๋ฉด, ๊ทธ ์ง์ ์ด q์
- PACF(๋ถ๋ถ์๊ธฐ์๊ดํจ์) : ๋ ์ ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ์ธก์ ํ๋, ๊ทธ ์ฌ์ด์ ์ง์ ๋ค์ ์ํฅ๋ ฅ์ ์ ๊ฑฐํ ์์ํ ์๊ด๊ด๊ณ๋ง ๋ด. AR(p)์ ์ฐจ์๋ฅผ ๊ฒฐ์ ํ ๋ ์ฌ์ฉ. PACF๊ทธ๋ํ๊ฐ ํน์ ์์ ์ดํ์ 0์ผ๋ก ๊ฐ์๊ธฐ ๋จ์ด์ง๋ค๋ฉด, ๊ทธ ์ง์ ์ด p์
ETS(Error-Trend-Seasonal) ์ง์ํํ(exponential smoothing)์ ์ต๊ทผ ๊ด์ธก์น์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋๋ ๊ธฐ๋ฒ์ด๊ณ , ์ด๋ฅผ ์ํ๊ณต๊ฐ์ ์ ์ํํ์ฌ ํ๋ฅ ๋ชจํ๊ณผ AIC(์๋ ๋ชจํ ์ ํ)๋ฑ์ ์ฌ์ฉ๊ฐ๋ฅํ๋๋ก ๋ง๋ ์ฒด๊ณ
- ๊ฐ์ : ์ถ์ธ์ ๊ณ์ ์ฑ์ด ๋ช ํํ ๋น์ ์ ์๊ณ์ด์ ๊ฐํ๋ฉฐ, ์ค๋ฌด ์ ๋ฌด ์์ธก์ ๋๋ฆฌ ์ฌ์ฉ
- ํ๊ณ : ์ธ์์ ๊ธฐ๋ณธ์ ์ผ๋ก ๋น์ ์์ ์ด๋ผ๋ ์ฒ ํ์ผ๋ก ์ค๊ณํจ, ๋ฐ๋ผ์ ์ ์์ฑ์ด ํ์ํ ๋ฐ์ดํฐ์๋ ARIMA๊ฐ ๋ ์์ฐ์ค๋ฌ์ธ ์ ์์
- ์ ์์ฑ(Stationarity) : ๋ฐ์ดํฐ๊ฐ ์๊ฐ์ด ์ง๋๋ ๋ณํํ์ง ์๋ ์ฑ์ง
- ํ๊ท ์ด ์ผ์ ํจ
- ๋ถ์ฐ์ด ์ผ์ ํจ
- ๊ณต๋ถ์ฐ์ด ์ผ์ ํจ
- ์ ์์ฑ์ ์ด๋ฃจ๊ธฐ ์ํ ์ฐจ๋ถ
- 1์ฐจ ์ฐจ๋ถ : $y_t - y_{t-1}$์ ์ฌ์ฉํ์ฌ ์ถ์ธ๋ฅผ ์ ๊ฑฐ
- ๋ก๊ทธ ๋ณํ : ๋ณ๋ ํญ์ด ๊ฐ๋ฉด๊ฐ์๋ก ์ปค์ง๋ ๊ฒฝ์ฐ
- ๊ณ์ ์ฐจ๋ถ : $y_t - y_{t-m}$์ ์ฌ์ฉํ์ฌ ๊ณ์ ์ฑ์ ์ ๊ฑฐ
LLM Zero-Shot Forecasters (Gruver et al., 2023) ์๊ณ์ด ๊ฐ์ ์ซ์ ๋ฌธ์์ด๋ก ์ธ์ฝ๋ฉํ์ฌ โ๋ค์ ํ ํฐ ์์ธกโ๋ฌธ์ ๋ก ๋ฐ๊ฟ๋ฒ๋ฆผ. ์ด๋ฅผ ํตํด GPT-3, LLaMA-2์ ๊ฐ์ ๋ชจ๋ธ์ ์ถ๊ฐํ์ต์์ด ์ธ์ฝ์ ๊ฝค๋ ์ํ๋ค โ Zero-shot๊ฐ๋ฅ์ฑ
- ์ซ์ ํ ํฌ๋์ด์ง/๋์ฝ๋ฉ์ ์ค๊ณ โ ํ ํฐ ๋ถํฌ์ ์ฐ์๊ฐ์ ํ๋ฅ ๋ถํฌ๋ก ๋ฐ๊พธ๋ ์ ์ฐจ๋ฅผ ์ ์
- GPT-4๊ฐ ์ซ์ ํ ํฌ๋์ด์ง&์ ๋ ฌ(RLHF) ์ํฅ์ผ๋ก GPT-3๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์
- ์์ฌ์ : ํ ์คํธ ์ฌ์ ํ์ต ๋ชจ๋ธ์ด ์๊ณ์ด์๋ ์ ์ฉ์ด ๊ฐ๋ฅํจ์ ์์ฌ
- ํ๊ณ์ : ์ซ์ ํํ ๋ฐ ํ ํฌ๋์ด์ ์ค๊ณ์ ๋ฏผ๊ฐํ๋ฉฐ, ์ค์ผ์ผ์ ๋ฐ๋ผ ์ฑ๋ฅ์ฐจ์ด๊ฐ ํผ
- ์ธ์ฝ : ๊ณผ๊ฑฐ ๋ฐ์ดํฐ ํจํด์ ๋ณด๊ณ , ์์ง ์ค์ง ์์ ๋ฏธ๋์ ๊ฐ์ ์์ธก
Time-LLM: Time Series Forecasting by Reprogramming LLMs (Jin et al., ICLR 2024) LLM์ frozen์ํค๊ณ ์ ๋ ฅ์๊ณ์ด์ ํ ์คํธ๋ก ์ฌํ๋ก๊ทธ๋๋ฐ(Reprogramming)ํ์ฌ LLM์ด ๋ค๋ฃจ๊ธฐ ์ฌ์ด ํํ๋กค ์ ๋ ฌ์ํค๋ ํ๋ ์์ํฌ โPrompt-as-Prefix(PaP)โ๋ก ๋ฌธ๋งฅ์ ํ๋ถํ๊ฒ ์ฃผ๊ณ , LLM ์ถ๋ ฅ(๋ณํ๋ ํจ์น)์ ๋ค์ ์์ธก ๊ฐ์ผ๋ก ์ฌ์(projection)
- ์ฌํ๋ก๊ทธ๋๋ฐ : ์ธ์ด์ ํํ๋ก ๋ฐ๊พธ์ด์ค
- PaP(Prompt-as-Prefix)์ ์ฌ์(Projection) : PaP๋ โํ ์คํธ ์ค๋ช โ์ ์ ๋์ฌ๋ก ๋ฌ์์ฃผ๋ ๊ฒ(์ด ๋ฐ์ดํฐ๋ ์ด๋ค ๋ฐ์ดํฐ์ด๊ณ , ์ด๋ค ํจํด์ ๊ฐ์ง๊ณ ์๋ค), ์ฌ์์ ์ค์๊ฐ์ผ๋ก ๋ณํํ๋ ๊ฒ
ForecastPFN (Dooleyet al.2023):
ํฉ์ฑ(synthetic) ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ํ์ฉํ์ฌ ํ๋ จ๋ ์ต์ด์ zero-shot ์์ธก ๋ชจ๋ธ. ์ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ํด ๋ฒ ์ด์ง์ ๊ทผ์ถ๋ก ์ ๊ทผ์ฌํ๋๋ก ํ์ต์ํค๋ ๊ฒ
์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ์ฌํ์ต ์์ด ๋จ ํ๋ฒ์ ์์ ํ๋ก ์์ธก
์ ์ ๋ฐ์ดํฐ๋ก๋ ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ชจ๋ธ๋ณด๋ค ์ ํํ๊ณ ๋น ๋ฅธ ์์ธก ์ฑ๋ฅ ์ ์ฆ.
- ํต์ฌ ์ฃผ์ฅ : ์์ ๋ฐ์ดํฐํฌ์ธํธ๋ฅผ ๊ฐ์ง๊ณ , ๊ธฐ์กด๋ณด๋ค ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์์ธก(๋ ผ๋ฌธ ์ฃผ์ฅ 40๊ฐ ์ดํ)
- ํ๊ณ์ : ์ด๋ค ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํ์ตํ๋๊ฐ๊ฐ ์ค์ ๋๋ฉ์ธ๊ฐ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ ๊ฒฝ์ฐ ๋ฆฌ์คํฌ๊ฐ ๋ฐ์ํจ
- PFN : ์ค์ ๋ฐ์ดํฐ๊ฐ ์์ผ๋ฉด, ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์กฐ๊ฐ ๋ง๋ค์ด์ ํ์ต์ํค์๋ก ๋ค์๊ณผ ๊ฐ์ ์๋๋ฐฉ์์ ๊ฐ์ง
- ํต๊ณ์ ํจ์(ARIMA, ETS๋ฑ)๋ค์ ํ์ฉํ์ฌ, ๋ฌด์์๋ก ์กฐํฉํด ๊ฐ์์ ์๊ณ์ด์ ์์ฑ
- ์ด ๊ฐ์์ ๋ฐ์ดํฐ๋ก ์ ๋ต์ ๋ง์ถ๋๋ก ํ์ต
- ๊ฐ์ง ํจํด๋ค ์ค ๋น์ทํ ํจํด์ ์ฐพ์ ์ค์ ๋ฐ์ดํฐ์ ๋น์ทํ๋ค๊ณ ํ๋จํ์ฌ ์์ธก
A decoder-only foundation model for time-series forecasting (Das et al., 2023/ICML 2024)
๋๊ท๋ชจ ์๊ณ์ด ์ฝํผ์ค(corpus)์์ ์ฌ์ ํ์ต๋ decoder-only Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ. ๋ค์ํ public ๋ฐ์ดํฐ์ ์์ zero-shot ์ฑ๋ฅ์ด SOTA ์ง๋ ํ์ต(supervised) ๋ชจ๋ธ์ ๊ทผ์ . ๋ค์ํ ์์ธก ์ด๋ ฅ ๊ธธ์ด, ์์ธก ๊ธธ์ด, ์๊ฐ์ ์ธ๋ถ์ฑ์ ์ ์๋.
Moirai (Woo et al., 2024) โ Unified Training of Universal TS Forecasting Transformers
Masked Encoder ๊ธฐ๋ฐ์ Universal Time Series Forecasting Transformer. ์๊ณ์ด ๋ฐ์ดํฐ์ ๊ณ ์ ํ ๋์ ๊ณผ์ (๊ต์ฐจ ์ฃผํ์ ํ์ต, ๋ค์ํ ๋ณ์ ์, ๋ถํฌ ํน์ฑ)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Transformer ์ํคํ ์ฒ๋ฅผ ๊ฐ์ . 270์ต ๊ฐ ์ด์์ ๊ด์ธก์น๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ ๊ณต๊ฐ ์๊ณ์ด ์์นด์ด๋ธ(LOTSA)๋ก ํ๋ จ. zero-shot ์์ธก์์ full-shot ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๊ฑฐ๋ ์ฐ์ํ ์ฑ๋ฅ ๋ฌ์ฑ.
BIN (Binning in Time-Series) ์๊ณ์ด ์๋์ฐ ๋ด์ ์ฐ์์ ์ธ ์์น๋ฅผ ์ด์ฐ์ ์ธ ๊ตฌ๊ฐ(Bin)์ผ๋ก ๋๋์ด ํ ํฐํ ํ๋ ๊ธฐ๋ฒ
- ๊ฐ์ : ์์น ๋ฐ์ดํฐ์ ์ค์ผ์ผ ๋ฌธ์ ๋ฅผ ์ํ, LLM์ ๊ทธ๋๋ก ์ฌ์ฉ ๊ฐ๋ฅ
- ๋จ์ : ๊ตฌ๊ฐ ๊ฐ์๋, ๊ฒฝ๊ณ ์ค์ ์ ๋ต์ ๋ฐ๋ผ ์ ๋ณด ์์ค ๊ฐ๋ฅ
๊ฒฐ๋ก
(์์)
๐ฌ ํต์ฌ
๐ 3.1. ์๊ณ์ด ํ ํฐํ
๋ฒ์ญ
์์ธก ๊ตฌ๊ฐ์ด $H$์ธ ์๊ณ์ด $x_{1:C+H} = [x_1, \dots, x_{C+H}]$๋ฅผ ๊ณ ๋ คํด ๋ด ์๋ค. ์ฌ๊ธฐ์ ์ฒ์ $C$๊ฐ์ ์์ ์ ๊ณผ๊ฑฐ ๋งฅ๋ฝ(historical context)์ ๊ตฌ์ฑํ๊ณ , ๋๋จธ์ง $H$๊ฐ๋ ์์ธก ๊ตฌ๊ฐ(forecast horizon)์ ๋ํ๋ ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ์ ํํ ์ดํ ์งํฉ์ ํ ํฐ์ผ๋ก ์๋ํ๋ฏ๋ก, ์ด๋ฅผ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ฌ์ฉํ๋ ค๋ฉด ๊ด์ธก๊ฐ $x_i \in \mathbb{R}$์ ์ ํํ ํ ํฐ ์งํฉ์ผ๋ก ๋งคํํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋จผ์ ๊ด์ธก๊ฐ์ ์ค์ผ์ผ๋งํ ํ ๊ณ ์ ๋ ์์ ๊ตฌ๊ฐ(bin)์ผ๋ก ์์ํํฉ๋๋ค.
์ค์ผ์ผ๋ง
์๊ณ์ด์ ์ค์ผ์ผ์ ๋จ์ผ ๋ฐ์ดํฐ์ ๋ด์์๋ ์๋นํ ๋ค๋ฅผ ์ ์์ต๋๋ค. ์ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ต์ ํ์ ์ด๋ ค์์ ์ผ๊ธฐํฉ๋๋ค. ๋ฐ๋ผ์ ๊ฐ๋ณ ์๊ณ์ด์ ๋ ๋์ ์ต์ ํ๋ฅผ ์ํด ์ ๊ทํ๋ฉ๋๋ค. Chronos์ ๊ฒฝ์ฐ, ์ ๊ทํ์ ๋ชฉํ๋ ์๊ณ์ด ๊ฐ์ ์์ํ์ ์ ํฉํ ๋ฒ์๋ก ๋งคํํ๋ ๊ฒ์ ๋๋ค.
์ผ๋ฐ์ ์ธ ์ ๊ทํ ๊ธฐ๋ฒ์ ์๊ณ์ด์ ์ํ ๋ณํ(affine transformation)์ ์ ์ฉํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. ์ฆ, $\tilde{x}_i = (x_i - m)/s$์ ๋๋ค. ํ๊ท ์ค์ผ์ผ๋ง(mean scaling), ํ์ค ์ค์ผ์ผ๋ง(standard scaling), ์ต์-์ต๋ ์ค์ผ์ผ๋ง(min-max scaling)๊ณผ ๊ฐ์ ์ฌ๋ฌ ์ธ๊ธฐ ์๋ ์ ๊ทํ ๋ฐฉ์์ $m$๊ณผ $s$๋ฅผ ์ ์ ํ ์ ํํจ์ผ๋ก์จ ์ป์ ์ ์์ต๋๋ค.
์ ํฌ๋ ํ๊ท ์ค์ผ์ผ๋ง์ ์ ํํ๋๋ฐ, ์ด๋ ์ค์ ์๊ณ์ด ์์ฉ์ ํํ ์ฌ์ฉ๋๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ์ ์ฆ๋ ๋ฐฉ๋ฒ์ ๋๋ค(Salinas et al., 2020; Rabanser et al., 2020). ํ์ง๋ง ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์๋ ๊ฐ๋ฅํ๋ฉฐ ์ต์ํ์ ๋ณ๊ฒฝ๋ง ํ์ํฉ๋๋ค. ํ๊ท ์ค์ผ์ผ๋ง์ ๋งค๋ ฅ์ ์ธ ํน์ง์ ์๊ณ์ด์ $0$ ๊ฐ์ ๋ณด์กดํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ $0$ ๊ฐ์ ์ข ์ข ์๋ฏธ๋ก ์ ์ผ๋ก ์ค์ํ๋ฉฐ, ์๋ฅผ ๋ค์ด ์ ํ์ ํ๋งค๋ $0$ ๋๋ ๋ฐค์ ํ์ ์๋์ง ๋ฐ์ ๋ $0$๊ณผ ๊ฐ์ต๋๋ค.
| ํ๊ท ์ค์ผ์ผ๋ง์ ๊ณผ๊ฑฐ ๋งฅ๋ฝ(historical context) ๋ด ์ ๋๊ฐ๋ค์ ํ๊ท ์ผ๋ก ๊ฐ๋ณ ์๊ณ์ด ํญ๋ชฉ์ ์ ๊ทํํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด๋ $m = 0$์ด๊ณ $s = \frac{1}{C} \sum_{i=1}^C | x_i | $๋ก ์ค์ ํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. |
์์ํ
์ค์ผ์ผ๋ง๋ ์๊ณ์ด $\tilde{x}_{1:C+H} = [\tilde{x}_1, \dots, \tilde{x}C, \dots, \tilde{x}{C+H}]$๋ ์ฌ์ ํ ์ค์ ๊ฐ์ ๊ฐ์ง๋ฉฐ ์ธ์ด ๋ชจ๋ธ์์ ์ง์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ค์ ๊ฐ์ ์ด์ฐ์ ์ธ ํ ํฐ์ผ๋ก ๋ณํํ๊ธฐ ์ํด ์์ํ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
ํ์์ ์ผ๋ก, ์ค์์ ์์์ $B$๊ฐ์ ๊ตฌ๊ฐ ์ค์ฌ์ $c_1 < \dots < c_B$์ ์ด๋ค์ ๊ตฌ๋ถํ๋ $B-1$๊ฐ์ ๊ฒฝ๊ณ $b_i$ $(c_i < b_i < c_{i+1})$๋ฅผ ์ ํํฉ๋๋ค. ์ฌ๊ธฐ์ $i \in {1, \dots, B-1}$์ ๋๋ค. ๊ทธ๋ฌ๋ฉด ์์ํ ํจ์ $q: \mathbb{R} \to {1, 2, \dots, B}$์ ์ญ์์ํ ํจ์ $d: {1, 2, \dots, B} \to \mathbb{R}$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
\[q(x) = \begin{cases} 1 & \text{if } -\infty \le x < b_1, \ 2 & \text{if } b_1 \le x < b_2, \ \dots \ B & \text{if } b_{B-1} \le x < \infty, \end{cases} \quad \text{and} \quad d(j) = c_j,\]๊ฐ๊ฐ์ ๋ํด. ๊ตฌ๊ฐ ์ค์ฌ์ ๊ณผ ๊ฒฝ๊ณ์ ์์น๋ ๋ฐ์ดํฐ ์ข ์์ (data-dependent)์ด๊ฑฐ๋ ๊ท ์ผ(uniform)ํ ์ ์์ต๋๋ค(Rabanser et al., 2020). ๋ฐ์ดํฐ ์ข ์์ ๊ตฌ๊ฐํ์ ํ ์ข ๋ฅ์ธ ๋ถ์์ ๊ตฌ๊ฐํ(quantile binning)๋ ํ๋ จ ๋ฐ์ดํฐํฌ์ธํธ์ ๋์ ๋ถํฌ ํจ์(CDF)๋ฅผ ํ์ฉํ์ฌ ๊ฐ ๊ตฌ๊ฐ์ ๋๋ต์ ์ผ๋ก ๋์ผํ ์์ ๋ฐ์ดํฐํฌ์ธํธ๊ฐ ํ ๋น๋๋๋ก ๊ตฌ๊ฐ์ ๊ตฌ์ฑํฉ๋๋ค.
๋ฐ๋ฉด, ๊ท ์ผ ๊ตฌ๊ฐํ๋ ๊ตฌ๊ฐ $[c_1, c_B]$ ๋ด์์ ๊ท ์ผํ๊ฒ ๊ฐ๊ฒฉ์ด ๋จ์ด์ง ๊ตฌ๊ฐ ์ค์ฌ์ ์ ์ ํํ๋ฉฐ, ๊ตฌ๊ฐ ๊ฒฝ๊ณ๋ ์ฐ์๋ ๊ตฌ๊ฐ ์ค์ฌ์ ๋ค ์ฌ์ด์ ์ค๊ฐ ์ง์ ์ ์์นํฉ๋๋ค. ์ฆ, $b_i = \frac{c_i + c_{i+1}}{2}$ for $i \in {1, \dots, B-1}$์ ๋๋ค.
๋ณด์ง ๋ชปํ ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ์ ์ ๊ฐ ๋ถํฌ๋ ํ๋ จ ๋ถํฌ์ ์๋นํ ๋ค๋ฅผ ์ ์์ผ๋ฏ๋ก, ์ ํฌ๋ ์คํ์์ ๊ท ์ผ ๊ตฌ๊ฐํ๋ฅผ ์ ํํ์ง๋ง ๋ค๋ฅธ ์์ํ ๊ธฐ๋ฒ๋ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ์๊ณ์ด ์์ํ ๊ธฐ๋ฒ์ ๋ํ ์์ธํ ๋ ผ์๋ Rabanser et al. (2020)์ ์ฐธ์กฐํ์ญ์์ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ฌ์ ์ธ ํ๊ณ๋ ์์ธก ๋ฒ์๊ฐ $[c_1, c_B]$๋ก ์ ํ๋์ด, ๊ฐํ ์ถ์ธ๋ฅผ ๊ฐ์ง ์๊ณ์ด์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ด ์ด๋ก ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด ๋ด์ฉ์ ์น์ 5.7์์ ์ค์ ์ ์ธ ๋งฅ๋ฝ์์ ๋ ์์ธํ ํ๊ตฌํฉ๋๋ค.
์๊ณ์ด ํ ํฐ ${1, 2, \dots, B}$ ์ธ์๋, ์ธ์ด ๋ชจ๋ธ์์ ํํ ์ฌ์ฉ๋๋ ๋ ๊ฐ์ ํน์ ํ ํฐ์ธ PAD์ EOS๋ฅผ ์๊ณ์ด ์ดํ ์งํฉ $V_{ts}$์ ํฌํจํฉ๋๋ค. PAD ํ ํฐ์ ๋ฐฐ์น ๊ตฌ์ฑ์ ์ํด ๊ธธ์ด๊ฐ ๋ค๋ฅธ ์๊ณ์ด์ ๊ณ ์ ๋ ๊ธธ์ด๋ก ํจ๋ฉ(padding)ํ๊ฑฐ๋ ๋๋ฝ๋ ๊ฐ์ ๋์ฒดํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
EOS ํ ํฐ์ ์์ํ๋๊ณ ํจ๋ฉ๋ ์๊ณ์ด์ ์ถ๊ฐ๋์ด ์ํ์ค์ ๋์ ๋ํ๋ ๋๋ค. ์๊ณ์ด์ ๊ฒฝ์ฐ EOS ํ ํฐ ์ฌ์ฉ์ด ์๊ฒฉํ๊ฒ ํ์์ ์ด์ง๋ ์์ง๋ง, ์ธ๊ธฐ ์๋ ์ธ์ด ๋ชจ๋ธ๋ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ ํ์ต ๋ฐ ์ถ๋ก ์ ํธ๋ฆฌํ๊ฒ ๋ง๋ญ๋๋ค. $V_{ts}$์ ํ ํฐ ์ํ์ค๋ ์ธ์ฝ๋-๋์ฝ๋ ๋ฐ ๋์ฝ๋ ์ ์ฉ ๋ชจ๋ธ ๋ชจ๋์์ ์ธ์ด ๋ชจ๋ธ์ ์ํด ์ฝ๊ฒ ์ฒ๋ฆฌ๋ ์ ์์ด, ์ผ๋ฐ์ ์ธ ๋ฐฉ์์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค. ์๊ณ์ด ๋ชจ๋ธ๋ง์์ ์ผ๋ฐ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์์ผ, ์ฐ์ค ์ฃผ์ฐจ ๋ฑ๊ณผ ๊ฐ์ ํน์ง์ ํตํด ์๊ฐ ๋ฐ ์ฃผํ์ ์ ๋ณด๋ฅผ ํตํฉํ๋ ๊ฒ์ ๋๋ค. ์ญ์ค์ ์ผ๋ก ๋ค๋ฆด ์ ์์ง๋ง, Chronos์์๋ ์๊ฐ ๋ฐ ์ฃผํ์ ์ ๋ณด๋ฅผ ๋ฌด์ํ๊ณ โ์๊ณ์ดโ์ ๋จ์ํ ์ํ์ค๋ก ์ทจ๊ธํฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ฃผ๋ก ์ธ์ฝ๋-๋์ฝ๋ T5 ๋ชจ๋ธ(Raffel et al., 2020)์ ๋ณํ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, GPT-2(Radford et al., 2019) ๋ชจ๋ธ์ ์ฌ์ฉํ ์คํ์ ์ํํ์ฌ ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ด ๋์ฝ๋ ์ ์ฉ ๋ชจ๋ธ๋ก ์ฝ๊ฒ ํ์ฅ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ์๋ ์์ ์ด ํ์ํ์ง ์์ผ๋ฉฐ, ์์ํ์ ์ฌ์ฉ๋ ๋น์ ์์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ณ ์๋ ์ธ์ด ๋ชจ๋ธ์ ์ดํ ํฌ๊ธฐ์ ๋ค๋ฅผ ์ ์๋ $|V_{ts}|$๋ก ์ดํ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ๋ง ์ ์ธํ๋ฉด ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ดํ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ์๋ผ๋ด๊ฑฐ๋(๋๋ ํ์ฅํ๋ ๊ฒ)์ ํฌํจํฉ๋๋ค.
๋ด์ฉ
์์ธก ๊ตฌ๊ฐ์ด $H$์ธ ์๊ณ์ด $x_{1:C+H} = [x_1, \dots, x_{C+H}]$์์ ์ฒ์ C๊ฐ์ ์์ ์ ๊ณผ๊ฑฐ ๋งฅ๋ฝ์ ๊ตฌ์ฑํ๊ณ , ๋๋จธ์ง $H$๊ฐ๋ ์์ธก ๊ตฌ๊ฐ์ ๋ํ๋ ์ธ์ด ๋ชจ๋ธ์ ์ ํํ ์ดํ ์งํฉ์ ํ ํฐ์ผ๋ก ์๋ํ๋ฏ๋ก, ์ด๋ฅผ ์๊ณ์ด์ ์ ์ฉํ๊ธฐ ์ํด์๋ ์๊ณ์ด ๊ด์ธก๊ฐ์ $x_i \in \mathbb{R}$์ ์ ํํ ํ ํฐ ์งํฉ์ผ๋ก ๋งคํํ์ฌ์ผ ํจ
์ค์ผ์ผ๋ง
์๊ณ์ด์ ์ค์ผ์ผ์ ๋จ์ผ ๋ฐ์ดํฐ์ ๋ด์์๋ ๋ค๋ฅผ ์ ์๋ค. ๋ฐ๋ผ์ ๊ฐ๋ณ ์๊ณ์ด์ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํด ์ ๊ทํ๋ฅผ ์งํํ๋ฉฐ, Chronos์ ๊ฒฝ์ฐ ์ ๊ทํ์ ๋ชฉํ๋ ์์ํ์ ์ ํฉํ ๋ฒ์๋ก ๋งคํํ๋ ๊ฒ ์๊ณ์ด ์ ๊ทํ ๊ธฐ๋ฒ
- ์ํ ๋ณํ(affine transformation)์ ์ ์ฉํ์ฌ, $\tilde{x}_i = (x_i - m)/s$ ๋ฅผ ๋ง๋ ๋ค.
- ์ด๋ mean, standard, min-max sacling๋ฑ ์ฌ๋ฌ ์ธ๊ธฐ์๋ ์ ๊ทํ ๋ฐฉ์์ m๊ณผ s๋ฅผ ์ป์ ์ ์๋ค. Chronos์์๋ mean saciling์ ํํ๊ณ ์ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์ ํจ๊ณผ์ ์ธ๊ฒ์ผ๋ก ์ ์ฆ๋ โ(Salinas et al., 2020; Rabanser et al., 2020)โ๋ ผ๋ฌธ์ ๊ทผ๊ฑฐ๋ก ํจ, ํ์ง๋ง ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅํ๋ฉฐ ์ต์ํ์ ์์ ๋ง ๊ฑฐ์น๋ฉด ๋จ ํ๊ท ์ค์ผ์ผ๋ง์ ๋งค๋ ฅ์ ์ธ ๋ถ๋ถ์ 0๊ฐ์ ๋ณด์กดํ์ฌ ์๋ฏธ๋ก ์ ์ผ๋ก ์๋ก ๋ค๋ฅธ ๋๋ฉ์ธ์ 0๋ผ๋ฆฌ ์ผ์น์ํค๋ ์ญํ ์ ํจ e.g. ์ ํ ํ๋งค๋ 0 = ๋ฐค์ ํ์ ์๋์ง๋ 0
$m = 0$์ด๊ณ $s = \frac{1}{C} \sum_{i=1}^C |x_i|$ ์ด ๋์จ ๊ณ๊ธฐ
- ๋ณดํต m์ ํ๊ท ์ ๋์ผ๋ฉด, ์ค์ฌ์ด 0์ผ๋ก ์ด๋ํ๊ฒ ๋จ, ๊ทธ๋ฌ๋ Chronos์์๋ ๋ฐ์ดํฐ์ ์ ๋์ ์ธ ํฌ๊ธฐ๋ โ๋ถํธโ์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ์ํ์ฌ m=0์ผ๋ก ๋
- ๊ณผ๊ฑฐ ๋ฌธ๋งฅ C๊ฐ์ ๋ฐ์ดํฐํฌ์ธํธ ์ ๋๊ฐ์ ํ๊ท ์ผ๋ก ๊ฐ์ด ์์ฃผํฐ๊ฑธ ํจ๊ณผ์ ์ผ๋ก ์ค์ด๊ณ , ๊ฐ์ด ์์ฃผ ์์๊ฑธ ํจ๊ณผ์ ์ผ๋ก ๋๋ฆฌ๋ ์ญํ ๊ฒฐ๋ก ์ ์ผ๋ก ๋ฐ์ดํฐ์ ์ค์ฌ์ถ์ ๊ฑด๋๋ฆฌ์ง ์์์ฑ, ์ ์ฒด์ ์ธ ๋ฉ์น๋ฅผ ์กฐ์ ํ๋๋ฐฉ์
์์ํ
์ค์ผ์ผ๋ง๋ ์๊ณ์ด์ ์ฌ์ ํ $\tilde{x}{1:C+H} = [\tilde{x}_1, \dots, \tilde{x}{C}, \dots, \tilde{x}_{C+H}]$ ์ค์ ๊ฐ์ ๊ฐ์ ธ์ ์ธ์ด ๋ชจ๋ธ์ ๋ฃ์ ์ ์์.
๋ฐ๋ผ์, B๊ฐ์ ๊ตฌ๊ฐ์ ๋๋๋ B๊ฐ์ ๊ตฌ๊ฐ ์ค์ฌ์ $c_1 < \dots < c_B$, ์ด๋ฅผ ๊ตฌ๋ถํ๋ B-1๊ฐ์ ๊ฒฝ๊ณ $b_i$ $(c_i < b_i < c_{i+1})$๋ฅผ ์ ํํ๋ค. ์ด๋ i ๋ 1~(B-1)๊น์ง์ด๋ค. ๊ทธ๋ ๊ฒ ๋๋ฉด ์์ํํจ์์ ์ญ์์ํ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ๋๋ค.(q:์์ํ, d:์ญ์์ํ) $q: \mathbb{R} \to {1, 2, \dots, B}$, $d: {1, 2, \dots, B} \to \mathbb{R}$ \(q(x) = \begin{cases} 1 & \text{if } -\infty \le x < b_1, \ 2 & \text{if } b_1 \le x < b_2, \ \dots \ B & \text{if } b_{B-1} \le x < \infty, \end{cases} \quad \text{and} \quad d(j) = c_j,\) ๊ฐ๊ฐ์ ๋ํด ๊ตฌ๊ฐ์ ์ค์ฌ์ $c_i$์ ๊ฒฝ๊ณ์ ์์น $b_i$๋ ๋ฐ์ดํฐ ์ข ์์ ์ด๊ฑฐ๋ ๊ท ์ผํ ์ ์๋ค.
- ๋ถ์์ ๊ตฌ๊ฐํ : ๋ฐ์ดํฐ ์ข ์์ ๊ตฌ๊ฐํ ์ค ํ ์ข ๋ฅ๋ก์, ํ๋ จ ๋ฐ์ดํฐ์ ๋ฐ์ดํฐํฌ์ธํธ์ CDF๋ฅผ ํ์ฉํ์ฌ, ๊ฐ ๊ตฌ๊ฐ์ ๋๋ต์ ์ผ๋ก ๋์ผํ ์์ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ํ ๋น๋๋๋ก ํจ.
- ๊ท ์ผ ๊ตฌ๊ฐํ : $[c_1, c_B]$ ์์ ๊ท ์ผํ๊ฒ ๊ฐ๊ฒฉ์ด ๋จ์ด์ง ๊ตฌ๊ฐ ์ค์ฌ์ $c_i$๋ฅผ ์ ํํ๋ฉฐ, ๊ฐ ๊ตฌ๊ฐ ๊ฒฝ๊ณ๋ ๊ตฌ๊ฐ ์ค์ฌ์ ์ ์ค๊ฐ ์ง์ ์ ์์น $b_i = \frac{c_i + c_{i+1}}{2}$ for $i \in {1, \dots, B-1}$ Chronos์์๋ ๊ท ์ผ ๊ตฌ๊ฐํ๋ฅผ ์ ํํ์ฌ, ๋ณด์ง ๋ชปํ ๋ค์ด์คํธ๋ฆผ ๋ฐ์ดํฐ์ ์์ ํ๋ จ ๋ถํฌ์ ๋ค๋ฅผ ์ ์๋์ ์ ๊ณ ๋ คํ์๋ค. ์ด ๋ฐฉ์์ ํ๊ณ๋ ์๊ณ์ด์ ์์ธก๋ฒ์๋ฅผ $[c_1, c_B]$๋ด๋ก ์ ํ์์ผ, ๊ฐํ ์ถ์ธ๋ฅผ ๊ฐ์ง ์๊ณ์ด์ ๋ชจ๋ธ๋ง ํ๋๊ฒ์ ์ด๋ก ์ ์ผ๋ก ์ด๋ ต๋ค๋๊ฒ์ ์์ฌํ๋ค.
์๊ณ์ด ํ ํฐ $[1:B]$ ์ด์ธ์๋, ์ธ์ด ๋ชจ๋ธ์์ ์ฌ์ฉํ๋ ํน์ ํ ํฐ PAD, EOS๋ฅผ ์ถ๊ฐํ์์
- PAD : ๊ธธ์ด๊ฐ ๋ค๋ฅธ ์๊ณ์ด์ ๊ณ ์ ๋ ๊ธธ์ด๋ก ํจ๋ฉํ๊ฑฐ๋, ๋๋ฝ๋ ๊ฐ์ ๋์ฒด
- EOS : ์ํ์ค์ ๋์ ๋ํ๋, ์๊ณ์ด์ ๊ฒฝ์ฐ EOS ํ ํฐ ์ฌ์ฉ์ ๋ํด ์๊ฒฉํ์ง ์์ง๋ง, ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ ๋ ํ์ต ๋ฐ ์ถ๋ก ์ ์ฝ๊ฒ ํ๊ธฐ ๋๋ฌธ์ ์ถ๊ฐํจ. ์ด ๋ ํ ํฐ์ ์๊ณ์ด ์ดํ์งํฉ $V_{ts}$์ ํฌํจํ์ฌ ์ผ๋ฐ์ ์ธ ๋ฐฉ์์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํจ ์๊ณ์ด์ ๋ชจ๋ธ๋ง ํ๋๊ฒ์ ์์ผ, ์ฃผ์ฐจ ๋ฑ๋ฑ ํน์ง์ ํ์ ํด ์๊ฐ ๋ฐ ์ฃผํ์ ์ ๋ณด๋ฅผ ํตํฉํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ธ๋ฐ, Chronos์์๋ ์๊ฐ ๋ฐ ์ฃผํ์ ์ ๋ณด๋ฅผ ๋ฌด์ํ๊ณ โ์๊ณ์ดโ์ ๋จ์ ์ํ์ค๋ก ์ทจ๊ธํ๋ค. Chronos๋ ์ธ์ฝ๋-๋์ฝ๋ T5 ๋ชจ๋ธ(Raffel et al., 2020)์ ๋ณํ์ ์ด์ ์ ๋ง์ถ๋ฉฐ, ๋ค๋ฅธ ๋ชจ๋ธ๋ก ๋ณํํ ๋์๋ $|V_{ts}|$์ ์ดํ ํฌ๊ธฐ๋ง ์กฐ์ ํ๋ฉด ๋๋ค.(์ดํ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋๊ฑด ์ธ์ด ๋ชจ๋ธ์ ์์ ํ๋๊ฒ๋ํ ํฌํจํ๋ค. ๋ ์ด์ด์ ๋ฑ๋ฑ) ์ถ๊ฐ์ ์ผ๋ก, GPT-2(Radford et al., 2019) ๋ชจ๋ธ์ ์ฌ์ฉํ ์คํ์ ์ํํ์ฌ ํด๋น ์ ๊ทผ ๋ฐฉ์์ด ๋์ฝ๋ ์ ์ฉ ๋ชจ๋ธ๋ก ์ฝ๊ฒ ํ์ฅ๋ ์ ์๋ค.
ํฌ์ธํธ
์ํ ๋ณํ(affine transformation) \(\tilde{x}_i = (x_i - m)/s\) ํํ์ด๋, ์ ํ๋ณํ์ ๊ฒฐํฉํ๊ฒ์ผ๋ก ์ฝ๊ฒ ๋งํด, ๊ทธ๋ํ๋ฅผ ๋ฐ๊ฑฐ๋ ๋น๊ธฐ๊ณ (๋ํ๊ธฐ, ๋บด๊ธฐ) / ๋๋ฆฌ๊ณ ์ค์ด๋(๊ณฑํ๊ณ , ๋๋๊ณ ) ๋ชจ๋ ํ์๋ฅผ ์๋ฏธํ๋ค
๐ 4. Data Augmentation
๋ฒ์ญ
4 ๋ฐ์ดํฐ ์ฆ๊ฐ
๊ณต๊ฐ ์๊ณ์ด ๋ฐ์ดํฐ์ ํ์ง๊ณผ ์์ WikiText-103 (Merity et al., 2016), C4 (Raffel et al., 2020), The Pile (Gao et al., 2020)๊ณผ ๊ฐ์ ํ๋ถํ๊ณ ๊ณ ํ์ง์ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ํ์ฉํ๋ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๋๋ฉ์ธ๊ณผ ๋น๊ตํ ๋ ๋ฏธ๋ฏธํฉ๋๋ค. ์ด๋ ๋ค์ํ ํจํด์ ๊ฐ์ง ๋๊ท๋ชจ ์๊ณ์ด ๋ฐ์ดํฐ์ ์์กดํ๋ ์ ๋ก์ท ์์ธก(zero-shot forecasting)์ ์ํ ๋ชจ๋ธ ํ๋ จ์ ์ด๋ ค์์ ์ผ๊ธฐํฉ๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ค์ ๋ฐ์ดํฐ์ ์์ ๋ฏน์ค์ ์ฆ๊ฐ(mixup augmentations)์ ์์ฑํ๊ณ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํ๋ จ์ ๋ณด์ํจ์ผ๋ก์จ ํ๋ จ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํฅ์์ํฌ ๊ฒ์ ์ ์ํฉ๋๋ค.
4.1 TSMixup: ์๊ณ์ด ๋ฏน์ค์
๋ฏน์ค์ (Mixup, Zhang et al., 2017)์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋งฅ๋ฝ์์ ์ ์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค. ์ด๋ ํ๋ จ ๋ฐ์ดํฐ์ ์์ ๋ฌด์์ ์ด๋ฏธ์ง ์๊ณผ ํด๋น ๋ ์ด๋ธ์ ๋ณผ๋ก ์กฐํฉ(convex combinations)์ ์์ฑํ์ฌ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์๊ธฐ(memorization) ๋ฐ ๊ณผ์ ํฉ(overfitting)๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ์ํํฉ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค(Carmona et al., 2021; Zhou et al., 2023b)์ ๋ฏน์ค์ ์ ์๊ณ์ด ๋๋ฉ์ธ์ผ๋ก ํ์ฅํ์ต๋๋ค.
์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ๋ฐํ์ผ๋ก, ์ฐ๋ฆฌ๋ ๋ฏน์ค์ ์ ์์ด๋์ด๋ฅผ ๋ ๊ฐ ์ด์์ ๋ฐ์ดํฐํฌ์ธํธ๋ก ์ผ๋ฐํํ๋ TSMixup์ ์ ์ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, TSMixup์ ํ๋ จ ๋ฐ์ดํฐ์ ์์ ํน์ ๊ธธ์ด $l \sim U{l_{\min}, l_{\max}}$์ ์๊ณ์ด $k \sim U{1, K}$๊ฐ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ๊ณ , ์ด๋ฅผ ์ค์ผ์ผ๋งํ ํ ๋ณผ๋ก ์กฐํฉ์ ์ทจํฉ๋๋ค.
\[\tilde{x}*{TSMixup}^{1:l} = \sum*{i=1}^{k} \lambda_i \tilde{x}^{(i)}_{1:l}\]์ฌ๊ธฐ์ $\tilde{x}^{(i)}_{1:l}$๋ $i$๋ฒ์งธ ์ค์ผ์ผ๋ง๋ ์๊ณ์ด์ ๋ํ๋ ๋๋ค. ์๊ณ์ด์ ํผํฉ ์ ์ ์ค์ผ์ผ๋ง๋์ด, ์๊ณ ํฐ ๊ฐ์ ๊ฐ์ง ์๊ณ์ด์ด ํผํฉ ๊ณผ์ ์์ ๋๋ฑํ ์ค์๋๋ฅผ ๊ฐ๋๋ก ํฉ๋๋ค. ๊ฒฐํฉ ๊ฐ์ค์น $[\lambda_1, \dots, \lambda_k]$๋ ์ค์นผ๋ผ ๋๋ ํ๋ผ๋ฏธํฐ $\alpha$๋ก ๋งค๊ฐ๋ณ์ํ๋ ๋์นญ ๋๋ฆฌํด๋ ๋ถํฌ $\mathrm{Dir}(\alpha)$์์ ์ํ๋ง๋ฉ๋๋ค. TSMixup์ ์์ ํ ์์ฌ ์ฝ๋๋ ๋ถ๋ก A์ ์๊ณ ๋ฆฌ์ฆ 1์์ ์ฐพ์ ์ ์์ต๋๋ค. ์ง๊ด์ ์ผ๋ก, TSMixup์ ์๋ก ๋ค๋ฅธ ์๊ณ์ด์ ํจํด์ ๊ฒฐํฉํ์ฌ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํฅ์์ํต๋๋ค. ๊ทธ๋ฆผ 2๋ TSMixup์ผ๋ก ์์ฑ๋ ์ฆ๊ฐ์ ์์๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ
๋ค์ํ ํจํด์ด ์ด๋ป๊ฒ ํผํฉ๋๋์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค.
4.2 KernelSynth: ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ์ด์ฉํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ
TSMixup์ด ํจํด ๋ค์์ฑ์ ํฅ์์ํค์ง๋ง, ํนํ ์ค์ ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ผ ๋ ์ผ๋ฐ์ ์ธ ์๊ณ์ด ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ์๋ ์ฌ์ ํ ๋ถ์ถฉ๋ถํ ์ ์์ต๋๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ถ๊ฐ๋ก ๋ณด์ํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ์ฐ์์ ํ๋ก์ธ์ค(GP)๋ฅผ ์ฌ์ฉํ์ฌ ํฉ์ฑ ์๊ณ์ด์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ธ KernelSynth๋ฅผ ์ ์ํฉ๋๋ค. KernelSynth๋ Automatic Statistician (Duvenaud et al., 2013)์์ ์๊ฐ์ ๋ฐ์์ผ๋ฉฐ, ์ฌ๊ธฐ์ GP ์ปค๋ ๊ณต๊ฐ์ ๋ํ ํฉ์ฑ ํ์์ ์ํํ์ฌ ์๊ณ์ด์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด ๊ณผ์ ์ ์ญ์ ์ฌ์ฉํ์ฌ โ GP ์ปค๋์ ๋ฌด์์๋ก ํฉ์ฑํ์ฌ ์๋ก์ด ์๊ณ์ด์ ์์ฑํฉ๋๋ค.
GP๋ ํ๊ท ํจ์ $m(t)$์ ์์ ์ ๋ถํธ ์ปค๋ $\kappa(t, tโ)$์ ์ํด ์ ์๋๋ ํจ์์ ๋ํ ๋ถํฌ์ด๋ฉฐ, ์ฌ๊ธฐ์ $t \in \mathbb{R}$๋ ๋๋ฉ์ธ์ ๋๋ค. ์ปค๋์ ์ ๋ ฅ ๋๋ฉ์ธ์ ์์์ ๋ ์ $(t, tโ)$์์์ ํจ์ ๊ฐ์ ๊ฒฐํฉ ๋ณ๋์ฑ์ ์ ์ํ๋ ๊ณต๋ถ์ฐ ํจ์๋ฅผ ์ง์ ํฉ๋๋ค. ์ปค๋์ ์ ์ ํ๊ฒ ์ ํํจ์ผ๋ก์จ ๋ค์ํ ํจํด์ ์์ฑํ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๊ธฐ๋ณธ์ ์ธ ์๊ณ์ด ํจํด์ ์ ์ํ๋ ๊ธฐ์ ์ปค๋๋ค์ ์ปค๋ ๋ฑ ํฌ $K$๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. ์ฌ๊ธฐ์๋ ์ถ์ธ๋ฅผ ์ํ ์ ํ ์ปค๋, ๋ถ๋๋ฌ์ด ๊ตญ์ ๋ณ๋์ ์ํ RBF ์ปค๋, ์ผ๋ฐ์ ์ธ ์๊ณ์ด ์ฃผํ์์์ ๋ฐ๊ฒฌ๋๋ ๊ณ์ ์ฑ์ ์ํ ์ฃผ๊ธฐ์ ์ปค๋์ด ํฌํจ๋ฉ๋๋ค. ์ต์ข ์ปค๋ $\tilde{\kappa}(t, tโ)$์ $K$์์ $j \sim U{1, J}$๊ฐ์ ์ปค๋์ ๋ณต์ ์ถ์ถ(with replacement)๋ก ์ํ๋งํ๊ณ ์ด ์ปค๋๋ค์ ๋ฌด์์ ์ดํญ ์ฐ์ฐ์ธ $+$ ๋๋ $\times$๋ฅผ ํตํด ๊ฒฐํฉํ์ฌ ๊ตฌ์ฑ๋ฉ๋๋ค. ํฉ์ฑ ์๊ณ์ด์ GP ์ฌ์ ๋ถํฌ $GP(m(t) = 0, \tilde{\kappa}(t, tโ))$์์ ๊ธธ์ด $l_{syn}$์ ์ํ์ ์ถ์ถํ์ฌ ์์ฑ๋ฉ๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ถ๋ก A์ ์๊ณ ๋ฆฌ์ฆ 2๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
์ต์ข ์ปค๋์ธ $\tilde{\kappa}(t, tโ)$์ $K$์์ $j \sim U{1, J}$ ์ปค๋์ ๋ณต์ ์ถ์ถํ์ฌ ์ํ๋งํ๊ณ , ์ด ์ปค๋๋ค์ ๋ฌด์์ ์ด์ง ์ฐ์ฐ์ธ $+$ ๋๋ $\times$๋ฅผ ํตํด ๊ฒฐํฉํจ์ผ๋ก์จ ๊ตฌ์ฑ๋ฉ๋๋ค. ํฉ์ฑ ์๊ณ์ด์ GP ์ฌ์ ๋ถํฌ์ธ $GP(m(t) = 0, \tilde{\kappa}(t, tโ))$๋ก๋ถํฐ ๊ธธ์ด $l_{syn}$์ ์ํ์ ์ถ์ถํ์ฌ ์์ฑ๋ฉ๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ถ๋ก A์ ์๊ณ ๋ฆฌ์ฆ 2๋ฅผ ์ฐธ์กฐํ์ญ์์ค. ๊ทธ๋ฆผ 3์ KernelSynth์์ ์ฌ์ฉ๋ ์ด ์์ฑ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ฐ๋จํ ๊ธฐ์ ์ปค๋์ ์กฐํฉ์ผ๋ก๋ถํฐ ์ด๋ป๊ฒ ๋ณต์กํ ํจํด์ ๊ฐ์ง ์๊ณ์ด์ด ๋ฐ์ํ ์ ์๋์ง ์ค๋ช ํฉ๋๋ค.
๋ด์ฉ
์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ์์ฐ์ด ๋ชจ๋ธ์ ๋นํด์ ํฑ์์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์, ํฉ์ฑ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ฆ๊ฐ์ ์งํํ๋ค.
TSMixup
์ด๋ฏธ์ง ์ฆ๊ฐ ๊ธฐ๋ฒ์ธ Mixup์ ์๊ณ์ด ๋๋ฉ์ธ์ผ๋ก ํ์ฅํ ๋ฐฉ๋ฒ
- Mixup : ํ๋ จ ๋ฐ์ดํฐ์ ์์ ๋ฌด์์ ์ด๋ฏธ์ง ์๊ณผ ํด๋น ๋ ์ด๋ธ์ ๋ณผ๋ก ์กฐํฉ(convex combinations)์ ์์ฑํ์ฌ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ memorization๊ณผ ๊ณผ์ ํฉ์ ์ํ ์ด๋ฅผ ๋ ๊ฐ ์ด์์ ๋ฐ์ดํฐํฌ์ธํธ๋ก ์ผ๋ฐํ ํ๋ TSMixup์ผ๋ก ์์ ํ์์(์ ์) TSMixup์ ํ๋ จ ๋ฐ์ดํฐ์ ์์ ํน์ ๊ธธ์ด $l \sim U{[l_{\min}, l_{\max}]}$์ ์๊ณ์ด $k \sim U[{1, K}]$๊ฐ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ๊ณ , ์ด๋ฅผ ์ค์ผ์ผ๋งํ ํ ๋ณผ๋ก ์กฐํฉ์ ์ทจํ๋ค.
์ฌ๊ธฐ์ $\tilde{x}^{(i)}_{1:l}$๋ $i$๋ฒ์งธ ์ค์ผ์ผ๋ง๋ ์๊ณ์ด์ ๋ํ๋ธ๋ค. ์ค์ผ์ผ๋ง์ ํตํด์ ์๊ฑฐ๋ ํฐ ๊ฐ ๋ชจ๋๊ฐ ๋๋ฑํ ์ค์๋๋ฅด ๊ฐ์ง๊ฒ ๋๋ฉฐ, ๊ฒฐํฉ ๊ฐ์ค์น $[\lambda_1, \dots, \lambda_k]$๋ ๋๋ฆฌํด๋ $\mathrm{Dir}(\alpha)$์์ ํ๋ผ๋ฏธํฐ $\alpha$๋ก ์ํ๋ง ๋จ ์๋ก ๋ค๋ฅธ ์๊ณ์ด์ ํฉ์ฑํ์ฌ ๋ค์ํ ์๊ณ์ด์ ๋ณด์ฌ์ฃผ๊ฒ ๋จ
KernelSynth
TSMixup์ด ํจํด์ ๋ค์์ฑ์ ํฅ์์ํจ๋ค๋ฉด, KernelSynth๋ ๋ถ์กฑํ ๋ฐ์ดํฐ์๋ฅผ ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ํตํด ํฉ์ฑ ์๊ณ์ด์ ์์ฑํ๋ ๋ฐฉ์์ด๋ค. Automatic Statistician (Duvenaud et al., 2013)์์ ์๊ฐ์ ๋ฐ์๋ค. ์ด ๋ ผ๋ฌธ์์ GP ์ปค๋ ๊ณต๊ฐ์ ๋ํ ํฉ์ฑ ํ์์ ์ํํ์ฌ ์๊ณ์ด์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํ๋๋ฐ, ์ด ์ญ ๊ณผ์ ์ ์ฌ์ฉํ์ฌ GP์ปค๋์ ๋ฌด์์๋ก ํฉ์ฑํ์ฌ ์๋ก์ด ์๊ณ์ด์ ์์ฑํ๋ ๋ฐฉ์์ด๋ค. GP
- ํ๊ท ํจ์ $m(t)$์ ์์ ์ ๋ถํธ ์ปค๋ $\kappa(t, tโ)$์ ์ํด ์ ์๋๋ ํจ์์ ๋ํ ๋ถํฌ ์ด๋ $t \in \mathbb{R}$๋ ๋๋ฉ์ธ ์ปค๋์ ์ ๋ ฅ ๋๋ฉ์ธ์ ์์์ ๋ ์ $(t, tโ)$์์ ํจ์ ๊ฐ์ ๊ฒฐํฉ ๋ณ๋์ฑ์ ์ ์ํ๋ ๊ณต๋ถ์ฐ ํจ์๋ฅผ ์ง์ ํ๋ค. ์ด๋ฅผ ์ ์ ํ๊ฒ ์ ํํ๋ฏ๋ก์ ๋ค์ํ ํจํด์ ์์ฑํ ์ ์๋ค. ๊ธฐ๋ณธ์ ์ธ ์๊ณ์ด ํจํด์ ์ ์ํ๋ ๊ธฐ์ ์ปค๋๋ค์ ์ปค๋ ๋ฑ ํฌ $K$๋ฅผ ๊ตฌ์ถํ์๊ณ , ์ฌ๊ธฐ์๋ ์ถ์ธ๋ฅผ ์ํ ์ ํ ์ปค๋, ๋ถ๋๋ฌ์ด ๊ตญ์ ๋ณ๋์ ์ํ RBF ์ปค๋, ์ผ๋ฐ์ ์ธ ์๊ณ์ด ์ฃผํ์์์ ๋ฐ๊ฒฌ๋๋ ๊ณ์ ์ฑ์ ์ํ ์ฃผ๊ธฐ์ฑ ์ปค๋์ด ํฌํจ๋๋ค. ์ต์ข ์ปค๋ $\tilde{\kappa}(t, tโ)$์ $K$์์ $j \sim U[{1, J}]$๊ฐ์ ์ปค๋์ ๋ณต์ ์ถ์ถ(with replacement)๋ก ์ํ๋งํ๊ณ ์ด ์ปค๋๋ค์ ๋ฌด์์ ์ดํญ ์ฐ์ฐ $+$ ๋๋ $\times$๋ฅผ ํตํด ๊ฒฐํฉํ๋ค. ํฉ์ฑ ์๊ณ์ด์ GP ์ฌ์ ๋ถํฌ $GP(m(t) = 0, \tilde{\kappa}(t, tโ))$์์ ๊ธธ์ด $l_{syn}$์ ์ํ์ ์ถ์ถํ์ฌ ์์ฑ๋๋ค.
ํฌ์ธํธ
Mixup ๋ณผ๋ก ์กฐํฉ = ๊ฐ์ค ํ๊ท ๊ณผ ๋์ผํ๋ค. \(\tilde{x} = \lambda x_i + (1 - \lambda) x_j\)\(\tilde{y} = \lambda y_i + (1 - \lambda) y_j\) e.g. ์๋ฅผ ๋ค์ด, ๊ฐ์ ๊ณ ์์ด๋ฅผ 0.7๊ฐ์ ๊ฐ, 0.3๊ฐ์ ๊ณ ์์ด๋ก ๋ง๋๋๊ฒ๊ณผ ๋์ผํ๋ค.
TSMixup ๋์ ์๋ฆฌ
- ๋ฐ์ดํฐ ์ ์ ํ: ํ๋ จ์ ์์ ๋ฌด์์๋ก ๋ ๊ฐ์ ์๊ณ์ด ์ํ(A, B)์ ๋ฝ์ต๋๋ค.
- ๋น์ค ๊ฒฐ์ : 0์์ 1 ์ฌ์ด์ ๊ฐ์ธ $\lambda$๋ฅผ ๋ฌด์์๋ก ์ ํฉ๋๋ค. (์: $\lambda = 0.6$)
- ๋ฐ์ดํฐ ํฉ์ฑ
- ์ ๋ ฅ(๊ณผ๊ฑฐ ๋ฐ์ดํฐ): A ์๊ณ์ด์ ๊ฐ๋ค์ 0.6์ ๊ณฑํ๊ณ , B ์๊ณ์ด์ ๊ฐ๋ค์ 0.4๋ฅผ ๊ณฑํด์ ๋ํฉ๋๋ค.
- ๋ ์ด๋ธ(๋ฏธ๋ ์์ธก๊ฐ): A์ ์ค์ ๋ฏธ๋๊ฐ์ 0.6์, B์ ์ค์ ๋ฏธ๋๊ฐ์ 0.4๋ฅผ ๊ณฑํด์ ๋ํฉ๋๋ค.
- ํ์ต: ๋ชจ๋ธ์๊ฒ ์ด โ์์ธ ์๊ณ์ดโ์ ๋ณด์ฌ์ฃผ๋ฉฐ โ์์ธ ๋ฏธ๋๊ฐโ์ ์์ธกํ๊ฒ ์ํต๋๋ค.
KernelSynth ์๊ณ์ด์ ๋ ๊ณ ๋ก ๋ณด๋ ๋ฐฉ์ ๋ณต์กํด๋ณด์ด๋ ์๊ณ์ด๋ ๋ช ๊ฐ์ง ๊ธฐ๋ณธํจํด์ผ๋ก ์ชผ๊ฐค ์ ์์ ์ด ๊ธฐ๋ณธํจํด์ ์ปค๋๋ก ์ ์ ์์ฑ ๊ณผ์
- ์ฌ๋ฌ๊ฐ์ ์ปค๋์ ์ดํญ์ฐ์ฐ(+, x) : e.g. RBF + 7์ผ ์ฃผ๊ธฐ x ์ฐ์ํฅ ์ง์ = ์ฃผ๊ฐ ๋งค์ถ ๋ฐ์ดํฐ
- ์ปค๋์ ๊ฐ๋๋ฅผ ์กฐ์
- ์๊ณ์ด ์์ฑ(GP)
๋ํ์ ์ธ โ๋ ๊ณ ๋ธ๋ก(Kernel)โ RBF (Radial Basis Function) Kernel: ์์ฃผ ๋งค๋๋ฌ์ด ๊ณก์ ํจํด (๋ถ๋๋ฌ์ด ๋ณ๋) Periodic Kernel: ์ผ์ ํ ์ฃผ๊ธฐ๋ก ๋ฐ๋ณต๋๋ ํจํด (๊ณ์ ์ฑ) Linear Kernel: ์ผ์ ํ ๋ฐฉํฅ์ผ๋ก ์ฌ๋ผ๊ฐ๊ฑฐ๋ ๋ด๋ ค๊ฐ๋ ํจํด (์ถ์ธ) White Noise Kernel: ์๋ฌด ๊ท์น ์๋ ๋ฌด์์ ๋จ๋ฆผ(๋ ธ์ด์ฆ)
๐ 5.6. ํ์ดํผํ๋ผ๋ฏธํฐ ๋ถ์ & 5.7. ๋ชจ๋ธ์ ํ๊ณ
๋ฒ์ญ
5.6 ํ์ดํผํ๋ผ๋ฏธํฐ ๋ถ์
์ฌ๊ธฐ์๋ ๋ค์ํ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ด๊ธฐํ ๋ฐฉ๋ฒ ๋น๊ต๋ถํฐ ์์ํ์ฌ, ๋ค์ด์คํธ๋ฆผ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ํ ์ฌ๋ฌ ์ค๊ณ ์ ํ์ ํจ๊ณผ๋ฅผ ํ๊ตฌํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ Chronos-T5 (Small)์ ์ฑ๋ฅ์ ๋ํ ํ๋ จ ์คํ ์, ํฉ์ฑ ๋ฐ์ดํฐ ๋น์จ, ์ปจํ ์คํธ ๊ธธ์ด, ์ดํ ํฌ๊ธฐ์ ํจ๊ณผ๋ฅผ ๋ถ์ํฉ๋๋ค. ์ ํฌ๋ ๊ด์ฌ ์๋ ํ๋ผ๋ฏธํฐ๋ง ๋ณ๊ฒฝํ๊ณ , ๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ ์ฃผ์ ๊ฒฐ๊ณผ์ ์ฌ์ฉ๋ ๊ฐ์ผ๋ก ๊ณ ์ ํ์ต๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ. ์ ํฌ๋ 20202020M์์ 710710710710M ํ๋ผ๋ฏธํฐ ๋ฒ์์ ๋ค ๊ฐ์ง ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์คํํ์ต๋๋ค. ๊ทธ๋ฆผ 7a์์ ๋ณผ ์ ์๋ฏ์ด, ํ๋ จ ์์ค์ ๋ชจ๋ธ ์ฉ๋์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐ์ ๋๋ ๊ฒ์ ๋๋์ง ์์ต๋๋ค. ๊ทธ๋ฆผ 7b์์ ๋ณผ ์ ์๋ฏ์ด, ๋ค์ด์คํธ๋ฆผ ๋ชจ๋ธ ์ฑ๋ฅ์์๋ ์ด๋ฌํ ์ถ์ธ๋ฅผ ๊ด์ฐฐํ ์ ์์ต๋๋ค. ์ฆ, ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ๋ฒค์น๋งํฌ ๋ชจ๋์์ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. ์ด๋ฌํ ์ถ์ธ๋ ๋ ํฐ ๋ชจ๋ธ์ด ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํฌ ์ ์์์ ์์ฌํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ ํฌ๋ ์ถ๋ก ์๊ฐ์ด ๋๋ ค์ ธ ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋น์ค์ฉ์ ์ด๊ฒ ๋ ์ ์๊ธฐ ๋๋ฌธ์ ๋ ํฐ ๋ชจ๋ธ์ ํ์ํ์ง ์์์ต๋๋ค.
์ด๊ธฐํ. ์ ํฌ๋ Chronos ๋ชจ๋ธ์ Tay ์ธ ์ฐ๊ตฌ์ง(2021)์ด C4 ๋ฐ์ดํฐ์ (Raffel ์ธ ์ฐ๊ตฌ์ง, 2020)์์ ์ฌ์ ํ๋ จํ ํด๋น T5 ์ธ์ด ๋ชจ๋ธ๋ก ์ด๊ธฐํํ๋ ๊ฒ์ด ํ๋ จ ๋์ญํ ๋๋ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์กฐ์ฌํ์ต๋๋ค. ๊ทธ๋ฆผ 8์ ๋ฌด์์๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ๊ณผ ์ธ์ด ๋ชจ๋ธ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ์ ํ๋ จ ์์ค ๊ณก์ ์ ๋ณด์ฌ์ค๋๋ค. ์ฃผ๋ชฉํ ์ ์, ๋ฌด์์๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ์ด ์ธ์ด ๋ชจ๋ธ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ์ ๋นํด ๋ ๋ฎ์ ํ๋ จ ์์ค๋ก ์๋ ดํ๋ ๊ฒฝํฅ์ด ์๋ค๋ ๊ฒ์ ๋๋ค. ๋ ํฐ ๋ชจ๋ธ(Base ๋ฐ Large)์ ๊ฒฝ์ฐ, ์ธ์ด ๋ชจ๋ธ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ์ ์ด๊ธฐ์ ํ๋ จ ์์ค์ด ๋ ๋น ๋ฅด๊ฒ ๊ฐ์ํ๋ ๊ฒ์ ๋ณด์ด์ง๋ง, ๊ถ๊ทน์ ์ผ๋ก๋ ๋ ๋์ ์ต์ข ์์ค๋ก ์๋ ดํฉ๋๋ค.
์ ๋ฐ์ ์ผ๋ก ์ด๋ฌํ ๊ด์ฐฐ์ ์ธ์ด ๋ชจ๋ธ ๊ฐ์ค์น๊ฐ ์๊ณ์ด ์์ธก ๋งฅ๋ฝ์์ ํน๋ณํ ์ฃผ๋ชฉํ ๋งํ์ง ์์ผ๋ฉฐ ๋ฌด์์ ์ด๊ธฐํ์ ๋นํด ๊ฐ์ ์ ์ ์ ๊ณตํ์ง ์์์ ์์ฌํฉ๋๋ค. ์ด๋ฌํ ๊ฒฐ๋ก ์ ๊ทธ๋ฆผ 9์์ ์ธ์ด ๋ชจ๋ธ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ์ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ๊ณผ ๊ฐ ํฌ๊ธฐ์ ์ธ ๊ฐ์ง ๋ฌด์์ ์ด๊ธฐํ ๋ชจ๋ธ์ ๋น๊ตํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๋์ฑ ๊ฐํ๋ฉ๋๋ค. ๋ชจ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๊ฑธ์ณ, ์ธ์ด ๋ชจ๋ธ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ฌด์์๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ๋น์ทํ๊ฑฐ๋ ์ฝ๊ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ LLM ์ด๊ธฐํ๊ฐ ์๊ณ์ด ์์ธก ๋งฅ๋ฝ์์ ์๋์ ์ผ๋ก ์ด์ ์ด ์ ์ผ๋ฉฐ, ๋์ ๋ฌด์์ ์ด๊ธฐํ๊ฐ ๋ ์ ํธ๋๋ ์ ํ์ผ ์ ์์์ ์์ฌํฉ๋๋ค.
TSMixup ์ฆ๊ฐ. ์น์ 5.2์ ์ค๋ช ๋ ๋ฐ์ ๊ฐ์ด, ์ฐ๋ฆฌ๋ Chronos ๋ชจ๋ธ์ ์๋ณธ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ์๋ TSMixup ์ฆ๊ฐ ๋ฐ์ดํฐ๋ก ํ์ต์์ผฐ์ต๋๋ค. ๋ณธ ์คํ์์๋ TSMixup ์ฆ๊ฐ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ์ ๋ฆฌํ์ง ์กฐ์ฌํฉ๋๋ค. ๊ทธ๋ฆผ 10a๋ TSMixup ์ฆ๊ฐ์ ์ฌ์ฉํ๊ฑฐ๋ ์ฌ์ฉํ์ง ์๊ณ ํ์ต๋ Chronos-T5 (Small, 46M) ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํฉ๋๋ค. TSMixup ์ฆ๊ฐ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ฆ๊ฐ ์์ด ํ์ต๋ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ธ-๋๋ฉ์ธ ์ฑ๋ฅ์ ์ป์ต๋๋ค. ๊ทธ๋ฌ๋ TSMixup ์ฆ๊ฐ์ ์ฌ์ฉํ ๋ ์ ๋ก์ท(zero-shot) ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. ์ด๋ TSMixup์ด ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํฅ์์์ผ ๋ณด์ง ๋ชปํ ๋ฐ์ดํฐ์ ์ ๋ํ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค. ๊ทธ๋ฆผ 10a๋ ๋ํ ์ ๋ก์ท ์ฑ๋ฅ์ด ํฉ์ฑ ๋ฐ์ดํฐ ํฌํจ ์ ์ถ๊ฐ์ ์ธ ํฅ์์ ์ป๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ค์ ์คํ์์ ์ด๋ฅผ ๋ ์์ธํ ์กฐ์ฌํฉ๋๋ค.
ํฉ์ฑ ๋ฐ์ดํฐ ๋น์จ. ์ฐ๋ฆฌ๋ KernelSynth๊ฐ ๋ค์ด์คํธ๋ฆผ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์
์ฒด๊ณ์ ์ผ๋ก ํ์ํ์ต๋๋ค. ์ฐ๋ฆฌ๋ TSMixup ์ฆ๊ฐ๊ณผ KernelSynth ๋ฐ์ดํฐ์์ ์ํ๋ง๋ ์๊ณ์ด์ 0% (์ฆ, TSMixup ์ฆ๊ฐ์ผ๋ก๋ง ํ์ต)์์ 100% ํฉ์ฑ ๋ฐ์ดํฐ๊น์ง ๋ค์ํ ๋น์จ๋ก ์ฌ์ฉํ์ฌ Chronos-T5 (Small, 46M) ๋ชจ๋ธ์ ํ์ต์์ผฐ์ต๋๋ค.
๊ทธ๋ฆผ 10b๋ ๋ค์ํ ๋น์จ์ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ๋ฉํธ๋ฆญ ๋ชจ๋ ํ์ต ์ ํฉ์ฑ ๋ฐ์ดํฐ ํตํฉ์ผ๋ก ๊ฐ์ ๋ฉ๋๋ค. ๊ฐ์ฅ ์ผ๊ด๋ ๊ฐ์ ์ ์ฝ 10%์ ํฉ์ฑ ๋ฐ์ดํฐ ๋น์จ์์ ๊ด์ฐฐ๋ฉ๋๋ค.
10% ํฉ์ฑ ๋ฐ์ดํฐ ๋น์จ ๊ทผ์ฒ์์ ๊ฐ์ฅ ์ผ๊ด๋ ๊ฐ์ ์ด ๊ด์ฐฐ๋ฉ๋๋ค. ํฉ์ฑ ๋ฐ์ดํฐ ๋น์จ์ ๋ ๋๋ฆฌ๋ ๊ฒ์ ์ฑ๋ฅ์ ์ ํ์ํค๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ๊ฐ์ฐ์์ ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ๋ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์ค์ ์๊ณ์ด์ ๋ํํ์ง ์์ผ๋ฏ๋ก ์ด๋ ๋๋์ง ์์ต๋๋ค.
ํฉ์ฑ ๋ฐ์ดํฐ๋ก๋ง ํ๋ จ๋ ๋ชจ๋ธ์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ํ๋ จ ์ฝํผ์ค์ ํฌํจํ ๋ชจ๋ธ์ ๋นํด ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ง, ์ ๋์ ์ฑ๋ฅ ๋ฉด์์๋ ํฉ๋ฆฌ์ ์ผ๋ก ์ ์ํ๋ฉ๋๋ค. ๊ทธ๋ฆผ 20 (๋ถ๋ก E)์ ์ด ๋ชจ๋ธ์ด ForecastPFN (Dooley et al., 2023)๋ณด๋ค ํจ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ForecastPFN์ (KernelSynth์๋ ๋ค๋ฅด๊ฒ ์์ฑ๋) ํฉ์ฑ ๋ฐ์ดํฐ๋ก๋ง ํ๋ จ๋ ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋๋ค. ๋๋๊ฒ๋, ์ด ๋ชจ๋ธ์ ํ๋ จ ์ค์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ณด์ง ๋ชปํ์์๋ ๋ถ๊ตฌํ๊ณ ์ ํฌ ๋ฒค์น๋งํฌ์์ ๋ค๋ฅธ ์ฌ๋ฌ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.7 ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ ํฌ ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ง์ ์ ์ฆํ๋ฉฐ, ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ๋์ฑ ์ขํ๊ธฐ ์ํ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ๋ จ ๋จ๊ณ. ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ํ ์ฅ๊ธฐ ํ๋ จ์ ํจ๊ณผ๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํด Chronos-T5 (Small, 46M) ๋ชจ๋ธ์ 1M ํ๋ จ ๋จ๊ณ ๋์ ํ๋ จํ์ต๋๋ค. ๊ทธ๋ฆผ 11a๋ ๋ค์ด์คํธ๋ฆผ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํ๋ จ ๊ณผ์ ์ ๋ฐ์ ๊ฑธ์ณ, ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ๋ฒค์น๋งํฌ ๋ชจ๋์์ ํฅ์๋จ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๋ ํฐ ๋ชจ๋ธ(Base ๋ฐ Large)์ ์ฑ๋ฅ์ด ๋ ์ค๋ ํ๋ จํจ์ผ๋ก์จ ์ ์ฌ์ ์ผ๋ก ํฅ์๋ ์ ์์์ ์์ฌํฉ๋๋ค.
์ปจํ ์คํธ ๊ธธ์ด. ๋ค ๊ฐ์ง ๋ค๋ฅธ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๊ฐ์ง Chronos-T5 (Small, 46M) ๋ชจ๋ธ์ ํ๋ จํ์ฌ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๋ํ ์ปจํ ์คํธ ๊ธธ์ด์ ํจ๊ณผ๋ฅผ ์ฐ๊ตฌํ์ต๋๋ค. ๊ทธ๋ฆผ 11b๋ ์ปจํ ์คํธ ๊ธธ์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ๋ณด์ฌ์ค๋๋ค. ์ปจํ ์คํธ ๊ธธ์ด๊ฐ 1024๊น์ง ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ๋ฉํธ๋ฆญ ๋ชจ๋์์ ๊ฐ์ ์ด ๊ด์ฐฐ๋์์ผ๋ฉฐ, ์ด๋ ๋ ๊ธด ์ปจํ ์คํธ๊ฐ ์ด๋ ์ ๋๊น์ง ๋ชจ๋ธ์ด ๋ ์ ์์ธกํ๋๋ก ๋๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
์ฐ๋ฆฌ๋ ์ธ-๋๋ฉ์ธ ๋ฐ ์ ๋ก์ท ๋ฉํธ๋ฆญ ๋ชจ๋์์ ์ปจํ ์คํธ ๊ธธ์ด๊ฐ 1024๊น์ง ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ ํฅ์์ ๊ด์ฐฐํ์ผ๋ฉฐ, ์ด๋ ๋ ๊ธด ์ปจํ ์คํธ๊ฐ ๋ชจ๋ธ์ด ํน์ ์ ๋๊น์ง ๋ ์ ์์ธกํ๋๋ก ๋๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฌ๋ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๋ ๋๋ฆฌ๋ฉด ์ฑ๋ฅ์ด ํฌํ๋๊ฑฐ๋ ์ ํ๋๋ ๊ฒฝํฅ์ด ์๋๋ฐ, ์ด๋ ํ๊ฐ ์ค์ ์ ํ๊ณ ๋๋ฌธ์ผ ์ ์์ต๋๋ค. ์ฆ, ์ถฉ๋ถํ ๊ณ ์ฃผํ์ ๋ฐ์ดํฐ์ (>= 15๋ถ)์ ํฌํจํ์ง ์์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ ๋ ๊ธด ์ปจํ ์คํธ ๊ธธ์ด์ ์ํฅ์ ํ์คํ๊ฒ ์ฐ๊ตฌํ๊ธฐ ์ํด์๋ ์ถ๊ฐ์ ์ธ ํ๊ฐ๊ฐ ํ์ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๊ณ ์ฃผํ์ ๋ฐ์ดํฐ์ ์ด ๋ ๊ธด ์ปจํ ์คํธ๋ก๋ถํฐ ์ด์ ์ ์ป์ ์ ์์ผ๋ฉฐ, ์ด๋ ์ฅ๊ธฐ์ ์ธ ๊ณ์ ํจํด์ ์ฌ๋ฐ๋ฅด๊ฒ ํฌ์ฐฉํ๋ ๋ฐ ํ์ํ ์ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
์ดํ ํฌ๊ธฐ. ์ดํ ํฌ๊ธฐ๋ ๋ชจ๋ธ์ด ์ค์ผ์ผ๋ง๋ ์๊ณ์ด์ ์ฒ๋ฆฌํ ์ ์๋ ์ ๋ฐ๋๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ํ์ํ๊ธฐ ์ํด ๋ค์ํ ์ดํ ํฌ๊ธฐ๋ก Chronos-T5 (Small, 46M) ๋ชจ๋ธ์ ํ๋ จํ์ต๋๋ค. ๊ทธ๋ฆผ 11c๋ ์ดํ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ํฌ์ธํธ ์์ธก ๋ฉํธ๋ฆญ(MASE)์์ ์ฝ๊ฐ์ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค. ๋ฐ๋ฉด์ WQL์ ์ฒ์์ ๊ฐ์ ๋๋ค๊ฐ ๋ ํฐ ์ดํ ํฌ๊ธฐ์์๋ ์ฑ๋ฅ์ด ์ ํ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ํ๋์ด ์ ํ๋ ๋ฉํธ๋ฆญ์ ์ธ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค. ๊ฐ๋ณ ์๊ณ์ด์ ์ค์ผ์ผ์ ๋ถ๋ณํ๋ MASE๋ ์ค์ผ์ผ์ ๋ถ๋ณํ๋ ํ๋ จ ์์ค๊ณผ ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋์ด ์์ต๋๋ค. ๋ฐ๋ผ์ MASE๋ ํ๋ จ ์์ค์์ ์์๋๋ ๋ฐ์ ๊ฐ์ด ์ ๋ฐ๋ ์ฆ๊ฐ์ ํจ๊ป ๊ฐ์ ์ ๋ณด์ ๋๋ค. ๋ฐ๋๋ก, ์ค์ผ์ผ์ ์์กด์ ์ธ ๋ฉํธ๋ฆญ์ธ WQL์ ํ๋ จ ์์ค๊ณผ ๋ฐ์ ํ๊ฒ ์๊ด๋์ง ์์ผ๋ฉฐ ์ ๋ฐ๋๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์ธก ๊ฐ๋ฅ์ฑ์ด ๋จ์ด์ง๋๋ค. ์ด๋ฌํ ๋ฉํธ๋ฆญ์ ์์ฑ์ ๋ํ ๋ ผ์๋ ๋ถ๋ก D๋ฅผ ์ฐธ์กฐํ์ญ์์ค. ์ด ์คํ์ ๋์ด์, ์ฐ๋ฆฌ๋ Chronos์ ๊ฐ์ ๋ชจ๋ธ์ ๋งฅ๋ฝ์์ ์ดํ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ๊ฒ์ด ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ธฐํ ๊ฒ์ด๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค. ์ดํ ํฌ๊ธฐ๊ฐ ๋๋ฌด ์์ผ๋ฉด ํฐ ์ด์ฐํ ์ค๋ฅ๋ก ์ธํด ์์ธก ์ ํ๋๊ฐ ๋จ์ด์ง์ง๋ง, ์ดํ ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ๋น์ด ๋๋ฌด ๋ฏธ์ธํด์ ธ ๊ฐ ๋น์ ๋ค์ด๊ฐ๋ ๋ฐ์ดํฐ ํฌ์ธํธ ์๊ฐ ์ ์ด ์ผ๋ฐํ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
5.7 ์ ์ฑ์ ๋ถ์ ๋ฐ ํ๊ณ ์ด ์น์ ์์๋ Chronos ๋ชจ๋ธ์์ ์์ฑ๋ ์์ธก์ ์ ์ฑ์ ์ผ๋ก ๋ถ์ํ๊ณ ํ ํฐํ ๊ธฐ๋ฒ์ ๋ช ๊ฐ์ง ํ๊ณ๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
5.7 ์ ์ฑ์ ๋ถ์ ๋ฐ ํ๊ณ์ ๋ณธ ์น์ ์์๋ Chronos ๋ชจ๋ธ์ด ์์ฑํ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ ์ฑ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ ํฌ์ ํ ํฐํ ๊ธฐ๋ฒ์ ๋ช ๊ฐ์ง ํ๊ณ์ ๋ ๊ฐ์กฐํฉ๋๋ค. ์ ํฌ๋ ๋ค์ํ ์๊ณ์ด ํจํด์ ๋ํ ํต์ ๋ ๋ถ์์ ์ํด ์ฃผ๋ก ํฉ์ฑ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ค์ ๋ฐ์ดํฐ์ ์ ์์ธก ๊ฒฐ๊ณผ ์์๋ ๋ถ๋ก E์ ๊ทธ๋ฆผ 22๋ถํฐ 24๊น์ง๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
I.I.D. ๋ ธ์ด์ฆ. ์ ํฌ๋ ์์ ํ ๊ฐ์ฐ์์ ๊ด์ธก์น N(0, 1) ๋ฐ N(100, 10)๋ก ๊ตฌ์ฑ๋ ์๊ณ์ด์ ์์ฑํ๊ณ , ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด Chronos-T5 (Base)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๊ทธ๋ฆผ 12a๋ Chronos๊ฐ ์ด๋ฌํ ์๊ณ์ด์ ๋ํด ํ๋นํ ์์ธก์ ์์ฑํ๋ฉฐ, ์์ธก๋ 80% ๊ตฌ๊ฐ์ด ์ ์ ํ๋์ ์ ์ผ๋ก ํ์๋ ์ค์ 80% ๊ตฌ๊ฐ๊ณผ ์ผ์นํจ์ ๋ณด์ฌ์ค๋๋ค.
์ถ์ธ ๋ฐ ๊ณ์ ์ฑ. ์ ํฌ๋ ์ ํ ๋ฐ ์ง์ ์ถ์ธ๋ฅผ ๋ฐ๋ฅด๋ ์๊ณ์ด์ ์์ฑํ์ต๋๋ค. Chronos-T5 (Base)๋ ์ ํ ์ถ์ธ๋ ์ ํํ๊ฒ ์์ธกํ์ง๋ง, ๊ทธ๋ฆผ 12b์ ํ์๋ ๊ฒ์ฒ๋ผ ์ง์ ์ถ์ธ์๋ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ์์ ์ง์ ์ถ์ธ์ ํํ์ด ์ ํ์ ์ด๊ธฐ ๋๋ฌธ์ผ ์ ์์ต๋๋ค. ์ง์ ์ถ์ธ๊ฐ ์๋ ์๊ณ์ด์ ๋ํ ๋ ๋์ ์์ธก์ ์์ฑํ๊ธฐ ์ํ ์ ์ฌ์ ์ธ ํด๊ฒฐ์ฑ ์ ์๊ณ์ด์ Chronos ๋ชจ๋ธ์ ์ ๋ ฅํ๊ธฐ ์ ์ ๋ก๊ทธ ์ค์ผ์ผ๋ง์ ์ํํ๋ ๊ฒ์ ๋๋ค. ๋ํ ์ ํฌ๋ ์ปจํ ์คํธ๊ฐ ์ถฉ๋ถํ ๊ธธ์ง ์์ ๋ Chronos ๋ชจ๋ธ์ด ์ถ์ธ๋ฅผ ๊ณผ์ํ๊ฐํ๋ ๊ฒฝํฅ์ด ์์์ ๊ด์ฐฐํ์ต๋๋ค. ์ด ํ์์
์งง์ ์ปจํ ์คํธ๊ฐ ์ ๊ณต๋์์ ๋ ๋ชจ๋ธ์ด ํจํด์ ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ์ง๋ง ์ถ์ธ๋ฅผ ๊ณผ์ํ๊ฐํ๋ ๊ทธ๋ฆผ 13์ ๋ฌ์ฌ๋์ด ์์ต๋๋ค. ํ์ง๋ง ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ ์ฌ๋ฐ๋ฅธ ํจํด๊ณผ ์ถ์ธ๋ฅผ ํ์ ํฉ๋๋ค. ์ ํฌ ๋ถ์์์ Chronos ๋ชจ๋ธ์ด ์๊ณ์ด์์ ๊ณ์ ์ฑ ํจํด์ ํนํ ์ ์ธ์ํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. ์ ํฌ๋ ์๋ก ๋ค๋ฅธ ์ฃผํ์๋ฅผ ๊ฐ์ง ์ฌ์ธํ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ํ ๊ณ์ ์ฑ ์๊ณ์ด์ ์์ฑํ์ต๋๋ค. ๊ทธ๋ฆผ 12c์ ํ์๋ ๊ฒ์ฒ๋ผ Chronos-T5 (Base)๋ ๋ ์๊ณ์ด ๋ชจ๋๋ฅผ ์ ํํ๊ฒ ์์ธกํฉ๋๋ค. ์ถ์ธ ๋ฐ ๊ณ์ ์ฑ๊ณผ ๊ฐ์ ๊ทผ๋ณธ์ ์ธ ํจํด์ด ๋ง์ ๋๋ ๊ณฑ์ ์ผ๋ก ๊ฒฐํฉ๋ ๋, Chronos๋ ์ด๋ฅผ ์ ํํ๊ฒ ์์ธกํฉ๋๋ค. ์ด๋ ์ฌ์ธํ์ ์ ํ ํจ์์ ๋ง์ ๋ฐ ๊ณฑ์ ์ ํตํด ์์ฑ๋ ์๊ณ์ด์ ๋ํ ๊ทธ๋ฆผ 12d์์ ์ ์ฆ๋ฉ๋๋ค.
์๊ธฐํ๊ท ํ๋ก์ธ์ค. ์ฐจ์ p์ ์๊ธฐํ๊ท(AR) ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
\[X_t = \sum_{i=1}^{p} \phi_i X_{t-i} + \varepsilon_t\]์ฌ๊ธฐ์ $\varepsilon_t \sim N(0, 1)$์ด๊ณ $\phi_1, \dots, \phi_p$๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ๋๋ค. ์ ํฌ๋ 1๋ถํฐ 4๊น์ง์ ๋ค์ํ ์ฐจ์๋ฅผ ๊ฐ์ง ์ ์ ์๊ธฐํ๊ท ํ๋ก์ธ์ค์์ ์๊ณ์ด์ ์์ฑํ์ผ๋ฉฐ, Chronos-T5 (Base)๊ฐ ์์ฑํ ์์ธก์ ๋ค์ ์ธ ๊ฐ์ง ๋ชจ๋ธ์ ์์ธก๊ณผ ๋น๊ตํ์ต๋๋ค: (a) ์๊ณ์ด์ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋ ์ค์ AR ๋ชจ๋ธ; (b) ์๊ณ์ด์ ๋ง์ถฐ์ง ์ฌ๋ฐ๋ฅธ ์ฐจ์(p)๋ฅผ ๊ฐ์ง AR ๋ชจ๋ธ; (c) ์๊ณ์ด์ ๋ง์ถฐ์ง AutoARIMA ๋ชจ๋ธ. ๊ทธ๋ฆผ 14๋ AR(1) ๋ฐ AR(4) ํ๋ก์ธ์ค์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ๊ทธ๋ฆผ 21(๋ถ๋ก E)์ AR(2) ๋ฐ AR(3)์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ ํฌ๋ Chronos-T5 (Base)๊ฐ ๋ค ๊ฐ์ง AR ํ๋ก์ธ์ค ๋ชจ๋์์ ํ๋นํ ์์ธก์ ์์ฑํจ์ ๊ด์ฐฐํ์ต๋๋ค. ๋ ๊ฐ๋จํ AR(1) ๋ฐ AR(2) ํ๋ก์ธ์ค๋ ์ฌ๋ฐ๋ฅด๊ฒ ์ง์ ๋ AR ๋ชจ๋ธ๊ณผ AutoARIMA ๋ชจ๋ธ์ด ๋ ์ฝ๊ฒ ๋ง์ถ ์ ์์ด, Chronos-T5 (Base)๋ณด๋ค ๋ ๋์ MSE๋ฅผ ์ป์ต๋๋ค. ํ์ง๋ง AR(3) ๋ฐ AR(4) ํ๋ก์ธ์ค์ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ, Chronos-T5 (Base)๋ AutoARIMA ๋ชจ๋ธ(์ค์ ๋ชจ๋ธ๊ณผ ๋์ผํ ๊ณ์ด์ ์ํจ)์ ๋ฅ๊ฐํ ๋ฟ๋ง ์๋๋ผ ์ฌ๋ฐ๋ฅธ ์ฐจ์๋ก ๋ง์ถฐ์ง AR ๋ชจ๋ธ๊ณผ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ Chronos ๋ชจ๋ธ์ด ์๊ณ์ด ๋ฐ์ดํฐ์ ์กด์ฌํ๋ ๊ทผ๋ณธ์ ์ธ ํจํด์ ์ธ์ํ ์ ์์์ ๊ฐ์กฐํฉ๋๋ค.
์ ์ฐํ ์์ธก ๋ถํฌ. ๋ฒ์ฃผํ ๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์์ธก์ ์ธ์ฝ๋ฉํจ์ผ๋ก์จ Chronos๋ ๋ค์ํ ํํ์ ์์ธก ๋ถํฌ๋ฅผ ์์ฑํ๋ ๋ฐ ์ ์ฐ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ๊ทธ๋ฆผ 15์ ํ์๋์ด ์์ผ๋ฉฐ, ์ธ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ ์์ธก ํธ๋ผ์ด์ฆ์ ์ฒ์ ๋ค์ฏ ํ์์คํ ์ ๋ํด Chronos ๋ชจ๋ธ์์ ์ํ๋ง๋ ํ ํฐ ID์ ์ปค๋ ๋ฐ๋ ์ถ์ (KDE) ํ๋กฏ์ ๋ณด์ฌ์ค๋๋ค. ๊ต์ฐจ ์ํธ๋กํผ๊ฐ ๊ฑฐ๋ฆฌ ์ธ์ ๊ธฐ๋ฅ์ด ์์์๋ ๋ถ๊ตฌํ๊ณ , Chronos๋ ์ฐ์์ ์ธ ํ ํฐ ์งํฉ์ ๊ฑธ์ณ, ๊ทธ๋ฆฌ๊ณ ๋ค์ค ๋ชจ๋ฌ์ ํฌํจํ ๋ค์ํ ํํ์ ์์ธก ๋ถํฌ๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
๊ต์ฐจ ์ํธ๋กํผ๊ฐ ๊ฑฐ๋ฆฌ ์ธ์ ๊ธฐ๋ฅ์ ๊ฐ์ง ์์์๋ ๋ถ๊ตฌํ๊ณ , Chronos๋ ๋ค์ค ๋ชจ๋๋ฅผ ํฌํจํ์ฌ ๋ค์ํ ํํ์ ์ฐ์์ ์ธ ํ ํฐ ์งํฉ์ ๋ํ ์์ธก ๋ถํฌ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. Chronos๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ง์ ๊ณต๊ฐ์ ์์์ ํ์ตํ์ง๋ง, ํ์ต ์ค์ ๋ชจ๋ธ์ ๋ช ์์ ์ธ ์์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ฉด ํ๋ก์ธ์ค๊ฐ ๊ฐ์ํ๋๊ณ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ์ ์ ํ ํฐ์ ๋ํด ๋ชจ๋ธ์ด ๊ฒฌ๊ณ ํด์ง ์ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์์ ์ ๋ณด๋ฅผ ์ฃผ์ ํ๋ ํ ๊ฐ์ง ์ ์ฌ์ ์ธ ๋ฐฉ๋ฒ์ ์ผ์ข ์ ๋ ์ด๋ธ ์ค๋ฌด๋ฉ(label smoothing)์ ํตํ๋ ๊ฒ์ธ๋ฐ, ์ด๋ ์ฌ๋ฐ๋ฅธ ํ ํฐ์ ์ด์์ ์๋ ํ ํฐ(์ฆ, ๋น)์ 0์ด ์๋ ํ๋ฅ ์ง๋์ ํ ๋นํ๋ ๊ฒ์ ๋๋ค. Farebrother ๋ฑ(2024)์ ๊ฐํ ํ์ต ๋งฅ๋ฝ์์ ์ด๋ฌํ ๊ฑฐ๋ฆฌ ์ธ์ ํ๊ท-๋ถ๋ฅ(regression-via-classification) ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ์๊ณ์ด ์์ธก ๋งฅ๋ฝ์์ ํ๊ท-๋ถ๋ฅ ํจ๋ฌ๋ค์์ ๋ํ ์ฌ์ธต์ ์ธ ์ด๋ก ์ ๋ฐ ๊ฒฝํ์ ๋ถ์์ ํฅ๋ฏธ๋ก์ด ํฅํ ์ฐ๊ตฌ๋ฅผ ๊ตฌ์ฑํ ๊ฒ์ ๋๋ค.
์ค๋ฒํ๋ก์ฐ ๋ฐ ์ ๋ฐ๋ ์์ค. Chronos์ ํ ๊ฐ์ง ํ๊ณ๋ ์ ์๋ ํ ํฐํ ์ ๊ทผ ๋ฐฉ์(์น์ 3.1 ์ฐธ์กฐ)์์ ๋น๋กฏ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ๊ฐ ์ ํํ ํ ํฐ์ ๋ฒ์ [โ15, +15] ๋ด์ ๋น ์ค์ฌ์ ๋ํ๋ด๋ฉฐ, ์ด๋ ๊ถ๊ทน์ ์ผ๋ก ์๋ ์๊ณ์ด ๊ฐ์ ๋ฒ์ [โ15s, 15s]๋ก ๋ํ๋ ๋๋ค. ์ฌ๊ธฐ์ s๋ ์๊ณ์ด์ ์ค์ผ์ผ(ํ๊ท ์ ๋๊ฐ)์ ๋๋ค. ๋ง์ฝ s๊ฐ ํด๋น ์๋ฆฌ์ฆ์ ๊ฐ ๋ฒ์์ ๋นํด ๋งค์ฐ ์๋ค๋ฉด, ์ผ๋ถ ๊ด์ธก์น๋ ํํ ๊ฐ๋ฅํ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ฒ ๋ฉ๋๋ค.
๋ง์ฝ s๊ฐ ์๊ณ์ด ๊ฐ์ ๋ฒ์์ ๋นํด ๋งค์ฐ ์๋ค๋ฉด, ์ผ๋ถ ๊ด์ธก์น๋ ํํ ๊ฐ๋ฅํ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ฒ ๋ฉ๋๋ค. ์ด๋ฌํ ๋์์ ํ ์๋ ํฌ์ ์๊ณ์ด์์ ๋ํ๋๋ฉฐ, ๊ทธ๋ฆผ 16a์ ํ์๋์ด ์์ต๋๋ค. ๋ฐ๋ฉด์, ๋ถ์ฐ์ ๋นํด s ๊ฐ์ด ๋งค์ฐ ํฌ๋ฉด ์ ๋ฐ๋ ์์ค์ด ๋ฐ์ํฉ๋๋ค. ์๋ ๊ณต๊ฐ์์ ํ ํฐ์ ์๋ก $30s/(B - 1)$ ๊ฐ๊ฒฉ์ผ๋ก ๋จ์ด์ ธ ์์ผ๋ฉฐ, ์ฌ๊ธฐ์ B๋ ๋น(bin)์ ๊ฐ์์ ๋๋ค (์คํ์์๋ B = 4094๋ฅผ ์ฌ์ฉํ์ต๋๋ค). ์ด๋ณด๋ค ๊ฐ๊น์ด ๊ฐ๋ค์ ๋์ผํ ํ ํฐ์ผ๋ก ๋งคํ๋ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ช ๋ฐฑํ ์ ๋ฐ๋ ์์ค์ ์ด๋ํฉ๋๋ค. ์ด๋ฌํ ๋์์ ํ ์๋ ๊ทธ๋ฆผ 16b์ ์ ์๋์ด ์์ต๋๋ค. ์ด ๋ฌธ์ ์ ๋ํ ์ถ๋ก ์์ ํด๋ฆฌ์คํฑ ํด๊ฒฐ์ฑ ์ ๋๊ท๋ชจ์ด๊ณ ๋ถ์ฐ์ด ์์ ์๊ณ์ด์ ๋ํด ํ์คํ์ ๊ฐ์ ๋์์ ์ธ ์ ๊ทํ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์๊ณ์ด์ ์ฌ์ ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋๋ค. ํด๋ฆฌ์คํฑ ์์ด ์ด๋ฌํ ์ฃ์ง ์ผ์ด์ค๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ํ ํฐํ(tokenization)๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ์ด์ง๋ง, ์น์ 5.5์ ๊ฒฐ๊ณผ๋ Chronos ๋ชจ๋ธ์ด ์ด๋ฌํ ํ๊ณ์๋ ๋ถ๊ตฌํ๊ณ ์ค์ ๋ฐ์ดํฐ์์ ์ ์๋ํจ์ ์์ฌํฉ๋๋ค.


