Chronos-2 From Univariate to Universal Forecasting
๐ ์ถ์ฒ
https://arxiv.org/abs/2510.15821
๐๏ธ ์์ฝ
๐ 3์ค ์์ฝ
- ๊ธฐ์กด Pretrained๋ชจ๋ธ์ Univariate forecastingํ๊ณ๋ฅผ ๋์ด, multivariate ๋ฐ covariate-informed forecasting task๋ฅผ zero-shot๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฒ์ฉ ๋ชจ๋ธ
- group attention mechanism์ ํตํด in-context learning(ICL)์ ๊ตฌํํด ๊ด๋ จ TS๊ฐ ํจ์จ์ ์ธ ์ ๋ณด ๊ณต์ ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ฃผ๋ก synthetic datasets๋ฅผ ํตํด ํ์ต
- ๋ค์ํ ๋ฒค์น๋งํฌ์์ SOTA๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, covariate-informed task์์ ๊ธฐ์กด chronos ๋ณด๋ค ํฐ ํญ์ ๊ฐ์ ์ ๋ณด์ฌ์ค
๐์์ฝ
๊ธฐ์กด Chronos๊ฐ ๊ฐ์ก๋ ๋จ๋ณ๋(Univariate) ์์ธก์ ํ๊ณ๋ฅผ ๋์ด, ๋ค๋ณ๋(Multivariate), ๊ณต๋ณ๋(Covariate)์ ๋ณด๋ฅผ zero-shot์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ์งํํ foundation๋ชจ๋ธ
1. ์ ์ฒ๋ฆฌ ๋ฐ ํ ํฐํ : ์์น์ ์์ ์ฑ๊ณผ ๊ตฌ์กฐํ
๋จ์ํ ์ซ์๋ฅผ ๋์ดํ๋ ๊ฒ์ด ์๋๋ผ, ์๊ณ์ด์ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉด์๋ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ๊ธฐ ์ฌ์ด ํํ๋ก ๋ณํํ๋๋ฐ ์ง์ค
1.1. Robust Scailing($sinh^{-1}$)
\(\tilde{v}_{t,d} = \text{sinh}^{-1}\left(\frac{v_{t,d} - \mu_d}{\sigma_d}\right)\) ๊ธฐ์กด์ ํ์คํ(standardization)๋ ์ด์์น์ ์ทจ์ฝํจ. ๋ฐ๋ผ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ํฌ์ฌ์ธ ๋ณํ์ ๋์ ํ์์. ์ด ํจ์๋ ์์ ๊ทผ์ฒ์์ ์ ํ์ ์ผ๋ก ์๋ํ๊ณ , ๊ฐ์ด ์ปค์ง์๋ก ๋ก๊ทธํจ์์ฒ๋ผ ์๋ํ์ฌ ๋ถ์ฐ์ ์์ ํํ๊ณ ์ด์์น์ ์ํฅ์ ์ต์ ํ๋ค
1.2. Pathcing
์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ํ ์ ์ฉ ์ฒ๋ฆฌํ๋ ๋์ , ํจ์น๋ก ๋ฌถ์ด ์ฒ๋ฆฌํจ. ๊ณ์ฐ ๋ณต์ก๋๋กค ๋ฎ์ถ๊ณ , Local Shape๋ฅผ ๋ ์ ํ์ ํ๋๋ก ํด์ค
2. ์ํคํ ์ฒ
ํต์ฌ์ ์ธ ๋ถ๋ถ์ Dual Attention๊ตฌ์กฐ์ด๋ค. ์ด๋ฅผ ํตํด ์๊ณ์ด ๋ด์ ์๊ฐ์ ํ๋ฆ๋ฟ๋ง ์๋๋ผ, ์๋ก ๋ค๋ฅธ ๋ณ์ ๊ฐ์ ๊ด๊ณ๊น์ง ํ์ต
2.1. Time Attention (์๊ฐ์ถ ์ ๋ณด ์ง๊ณ)
๊ธฐ์กด ํธ๋์คํฌ๋จธ์ ๋ง์ฐฌ๊ฐ์ง๋ก, ๋์ผํ ์๊ณ์ด ๋ด์์ ๊ณผ๊ฑฐ ํจ์น๋ค์ด ๋ฏธ๋ ์์ธก์ ์ผ๋ง๋ ์ค์ํ์ง ๊ณ์ฐํ๋ค. ์ด๋ RoPE(Rotary Position Embeddings)์ ํ์ฉํ์ฌ ์์น ์ ๋ณด๋ฅผ ํ์ ํ๋ ฌ๋ก ์ธ์ฝ๋ฉํ์ฌ ์๋์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ณด์กดํจ์ผ๋ก์ ์๊ฐ์์๋ฅผ ํ์ ํ๋ค.
2.2. Group Attention (๋ณ์ ๊ฐ ์ ๋ณด ์ง๊ณ)
๋ค๋ณ๋๊ณผ ๊ณต๋ณ๋์ ์ฒ๋ฆฌํ๋ ํต์ฌ
- In-Context Learning(ICL) : ์ฌ๋ฌ ์๊ณ์ด์ ํ๋์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด ๋ฐฐ์น์ ๋ฃ์ผ๋ฉด, ๋ชจ๋ธ์ ๊ทธ๋ฃน ๋ด ๋ค๋ฅธ ์๊ณ์ด๋ก๋ถํฐ ํํธ๋ฅผ ์ป์(๊ณต๋ณ๋ ํน์ ๋ค๋ณ๋์ผ๋ก๋ถํฐ)
- e.g. โ๊ธฐ์จโ์ ์์ธกํ ๋ โ์ต๋โ์ โ์ผ์ฌ๋โ์ ๊ฐ์ ๊ทธ๋ฃน ID๋ก ๋ฌถ์ด์ฃผ๋ฉด, ๋ชจ๋ธ์ ์ด๋ค ์ฌ์ด์ Dynamic์ ์ฐธ์กฐํ์ฌ ๋ ์ ํํ ์์ธก์ ์ํ
- ์ธ๋ฐ์ ์ธ ํธ๋์คํฌ๋จธ์ Time Attention์ด ํ๋์ ์๊ณ์ด ์์์ โ์ด์ ์ ์ค๋โ์ ๊ด๊ณ๋ฅผ ๋ณธ๋ค๋ฉด, Group Attntion์ ๊ฐ์ ์๊ฐ๋์ ์กด์ฌํ๋ โ๋ณ์ A์ ๋ณ์ Bโ์ ๊ด๊ณ๋ฅผ ๋ด. ์ฆ, ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ธ ์๋ก ๋ค๋ฅธ ๋ณ์๋ค๋ผ๋ฆฌ ์ดํ
์
์ ์ํ
- ์ ๋ ฅ ์๊ณ์ด๋ค์ Group ID๋ฅผ ๋ถ์ฌ : e.g. ๋ชฉํ ์ฃผ๊ฐ, ๊ฑฐ๋๋, ๊ธ๋ฆฌ ๋ฑ์ ๊ฐ์ ID๋ก ๋ถ์ฌ
- ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉํ์ง ์์(๋ณ์์ฌ์ด์๋ ์์๊ฐ ์์)
3. ํ๋ฅ ๋ก ์ ์์ธก : Quantile Head
์ ์์ธก์ ํ์ง ์๊ณ , 21๊ฐ์ ๋ถ์์๋ฅผ ์์ธกํ์ฌ ๊ฐ์ ๋ถํฌ๋ฅผ ์ ์
3.1. Quantile Regression Loss
\(\sum_{q \in Q} \text{check\_loss}(z - \hat{z}_q)\) check_loss๋ ์์ธก์ด ์ค์ ๋ณด๋ค ๋๊ฑฐ๋ ๋ฎ์ ๋ ๋น๋์นญ์ ์ธ ํ๋ํฐ๋ฅผ ์ฃผ๋ ํจ์ ์ด๋ฅผ ํตํด ์์ธก์ ๋ถํ์ค์ฑ์ ์ ๋ํํ ์ ์์ผ๋ฉฐ, ์ค์ ๋น์ฆ๋์ค ์์ฌ๊ฒฐ์ ์์ ์ค์ํ ์ญํ ์ ํจ
4. ์ ๋ต : ํฉ์ฑ ๋ฐ์ดํฐ
์ค์ ๋ก ์ ๊ณต๋ ๋ค๋ณ๋ ๋ฐ์ดํฐ์ ์์ด ์ ๊ธฐ๋๋ฌธ์, Multivariatizers๋ผ๋ ํต๊ณ์ ๊ธฐ๋ฒ์ ์ฌ์ฉ
- ์๊ด๊ด๊ณ ์ฃผ์ : ๋ ๋ฆฝ์ ์ธ ๋จ๋ณ๋ ๋ฐ์ดํฐ๋ค์ ์์ฑํ ํ, ์ ํ/๋น์ ํ ๋ณํ์ ํตํด ๊ฐ์ ๋ก ์๊ด๊ด๊ณ๋ฅผ ๋ง๋ฆ
- ์์ฐจ ํจ๊ณผ(Lead-Lag) : ํ ์๊ณ์ด์ด ๋ค๋ฅธ ์๊ณ์ด๋ณด๋ค ์กฐ๊ธ ๋ฆ๊ฒ ์์ง์ด๋ ํจํด ๋ฑ์ ์ํ์ ์ผ๋ก ์์ฑํ์ฌ, ๋ชจ๋ธ์ด ๋ณต์กํ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ฐฐ์ธ ์ ์๋๋ก ํจ
Chronos vs Chronos-2
| ๋น๊ต ํญ๋ชฉ | Chronos (v1) | Chronos-2 | | โโโโ- | โโโโโโโโโโโโโ | โโโโโโโโโโโโ | | ๋ชจ๋ธ ๊ตฌ์กฐ | T5 (EncoderโDecoder) / GPT-2 | T5 Encoder-Only (์ธ์ฝ๋๋ง ์ฌ์ฉ) | | ๊ธฐ๋ณธ ๋จ์ | ํ ํฐ (Token, ๊ฐ๋ณ ์์น ํ๋) | ํจ์น (Patch, ์ฌ๋ฌ ์์น์ ๋ฌถ์) | | ์ ์ฒ๋ฆฌ | Mean Scaling & Binning (๊ตฌ๊ฐ ๋๋๊ธฐ) | $\sinh^{-1}$ Scaling (์ํฌ์ฌ์ธ ๋ณํ) | | ์ถ๋ ฅ ํํ | ๋ฒ์ฃผํ ๋ถํฌ (Categorical Distribution) | ๋ถ์์ ์์ธก (Quantile Regression) | | ์ง์ ๋ฒ์ | ๋จ๋ณ๋(Univariate) ์ ์ฉ | ๋จ๋ณ๋ ยท ๋ค๋ณ๋ ยท ๊ณต๋ณ๋ (Zero-shot) | | ์์น ์ ๋ณด | Absolute / Relative Bias | RoPE (Rotary Position Embedding) | | ํต์ฌ ๊ธฐ์ | ๋จ์ ์๊ธฐํ๊ท (Autoregressive) | Group Attention (ICL์ ํต์ฌ) |
๐ ์ ๋ฆฌ
๐ ์ ๋ชฉ
Chronos-2: From Univariate to Universal Forecasting
๐ ์ด๋ก
๋ฒ์ญ
์ฌ์ ํ๋ จ๋ ์๊ณ์ด ๋ชจ๋ธ์ ์์ ๋ณ ํ์ต ์์ด ์ ํํ ์์ธก์ ์์ฑํ๋ ์ถ๋ก ์ ์ฉ ์์ธก ์์คํ ์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์ ์ฃผ๋ก ๋จ๋ณ๋ ์์ธก์ ์ด์ ์ ๋ง์ถฐ, ๋ค๋ณ๋ ๋ฐ์ดํฐ์ ๊ณต๋ณ๋์ด ์ค์ํ ์ญํ ์ ํ๋ ์ค์ ์๋๋ฆฌ์ค์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ํํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ ๋ก์ท(zero-shot) ๋ฐฉ์์ผ๋ก ๋จ๋ณ๋, ๋ค๋ณ๋ ๋ฐ ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก ์์ ์ ์ฒ๋ฆฌํ ์ ์๋ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ธ Chronos-2๋ฅผ ์ ์ํฉ๋๋ค. Chronos-2๋ ๊ทธ๋ฃน ๋ด์์ ๊ด๋ จ ์๊ณ์ด ์งํฉ, ๋ค๋ณ๋ ์๊ณ์ด์ ๋ณ๋, ๋๋ ์์ธก ๋์๊ณผ ๊ณต๋ณ๋์ ๋ํ๋ผ ์ ์๋ ๊ทธ๋ฃน ๋ด์์ ๋ค์ค ์๊ณ์ด ๊ฐ์ ํจ์จ์ ์ธ ์ ๋ณด ๊ณต์ ๋ฅผ ํตํด ์ธ์ปจํ ์คํธ ํ์ต(ICL, in-context learning)์ ์ด์งํ๋ ๊ทธ๋ฃน ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ์ผ๋ฐ์ ์ธ ๊ธฐ๋ฅ์ ๋จ๋ณ๋ ์๊ณ์ด์ ๋ค์ํ ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ๋ถ๊ณผํ๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ์ฌ ๋ฌ์ฑ๋ฉ๋๋ค. Chronos-2๋ ์ธ ๊ฐ์ง ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ์ธ fev-bench, GIFT-Eval, ๊ทธ๋ฆฌ๊ณ Chronos Benchmark II์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ๋ค๋ณ๋ ๋ฐ ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก์ ๊ฐ์กฐํ๋ fev-bench์์ Chronos-2์ ๋ณดํธ์ ์ธ ICL ๊ธฐ๋ฅ์ ๊ธฐ์กด ๋ชจ๋ธ์ ๋นํด ์๋นํ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค. ๊ณต๋ณ๋์ด ํฌํจ๋ ์์ ์์๋ ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ณด๋ค ์ผ๊ด๋๊ฒ ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์๋์ง ๋ฐ ์๋งค ๋ถ์ผ์ ์ฌ๋ก ์ฐ๊ตฌ๋ ๊ทธ ์ค์ง์ ์ธ ์ด์ ์ ๋์ฑ ๋ถ๊ฐํฉ๋๋ค. Chronos-2์ ์ธ์ปจํ ์คํธ ํ์ต ๊ธฐ๋ฅ์ ์ด๋ฅผ ์ค์ ์์ธก ํ์ดํ๋ผ์ธ์์ โ๊ทธ๋๋กโ ์ฌ์ฉํ ์ ์๋ ๋ฒ์ฉ ์์ธก ๋ชจ๋ธ๋ก ์๋ฆฌ๋งค๊นํ๊ฒ ํฉ๋๋ค.
๋ด์ฉ
๋จ๋ณ๋ โ ๋ค๋ณ๋, ๊ณต๋ณ๋์ผ๋ก ํ์ฅ ๋ค์ค ์๊ณ์ด ๊ฐ์ ํจ์จ์ ์ธ ์ ๋ณด ๊ณต์ ๋ฅผ ํตํ ICL(in-context learning)์ ์ด์งํ๋ Group Attention์ ์ฌ์ฉ ๋จ๋ณ๋ ์๊ณ์ด์ ๋ค์ํ ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ๋ถ๊ณผํ๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ํ์ฉ
ํฌ์ธํธ
- Group Attention : ๋ค์ค ์๊ณ์ด ๊ฐ์ ํจ์จ์ ์ธ ์ ๋ณด ๊ณต์ ๋ฅผ ํตํ ICL ์ด์ง
- ๋จ๋ณ๋ โ ๋ค๋ณ๋ ํฉ์ฑ : ๋จ๋ณ๋์ ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ๋ถ๊ณผ
๐ ์๋ก & ๊ฒฐ๋ก & ๊ณ ์ฐฐ
๋ฒ์ญ
์๋ก
์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ(๊ธฐ์ด ๋ชจ๋ธ์ด๋ผ๊ณ ๋ ํจ)์ ๋ฑ์ฅ์ ์๊ณ์ด ์์ธก ๋ถ์ผ์ ํจ๋ฌ๋ค์์ ์ ํ์ ๊ฐ์ ธ์์ต๋๋ค. ๊ฐ ์๊ณ์ด(๋ก์ปฌ ๋ชจ๋ธ, local models) (Hyndman & Athanasopoulos, 2018) ๋๋ ๊ฐ ๋ฐ์ดํฐ์ (์์ ๋ณ ๋ชจ๋ธ, task-specific models) (Lim et al., 2021; Challu et al., 2023)์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋์ , ๋จ์ผ ๋ชจ๋ธ์ ๋๊ท๋ชจ ์๊ณ์ด ๋ฐ์ดํฐ๋ก ํ ๋ฒ ํ์ตํ ๋ค ๋ค์ํ ์์ธก ๋ฌธ์ ์ ์ ์ฉํ ์ ์๊ฒ ๋์์ต๋๋ค (Ansari et al., 2024; Das et al., 2024b). ์ด๋ฌํ ์ฌ์ ํ๋ จ ์ ๊ทผ๋ฒ์ ๊ฐ ์ฌ์ฉ ์ฌ๋ก๋ง๋ค ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ํ์ตํ ํ์๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ ์์ธก ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋จ์ํํฉ๋๋ค. ๋์ฑ ์ฃผ๋ชฉํ ๋งํ ์ ์, ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ์ข ์ข ์์ ๋ณ ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฑฐ๋ ์ด๋ฅผ ๋ฅ๊ฐํ๋ ์์ธก ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค๋ ์ฌ์ค์ ๋๋ค (Aksu et al., 2024).
์ด๋ฌํ ๋ฐ์ ์๋ ๋ถ๊ตฌํ๊ณ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ ์ฌ์ ํ ์กด์ฌํฉ๋๋ค. ๋๋ถ๋ถ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋จ๋ณ๋ ์๊ณ์ด์๋ง ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ์์ธก ์ ๋จ์ผ ์๊ณ์ด์ ๊ณผ๊ฑฐ ๊ด์ธก์น๋ง์ ํ์ฉํฉ๋๋ค. ๋จ๋ณ๋ ์์ธก์ ์ค์ํ ๋ฌธ์ ์ด์ง๋ง, ์ค์ ์ด์ ํ๊ฒฝ์์ ์๊ตฌ๋๋ ์์ธก ๊ณผ์ ๋ ์ด๋ณด๋ค ํจ์ฌ ๋ณต์กํฉ๋๋ค. ํ์ค์ ์ผ๋ก๋ ์ฌ๋ฌ ๊ฐ์ ์๊ณ์ด์ด ํจ๊ป ์งํํ๋ ์ํฉ์์ ์ด๋ฅผ ๋์์ ์์ธกํด์ผ ํ๋ ๋ค๋ณ๋ ์์ธก(multivariate forecasting) ๋ฌธ์ (Baลbura et al., 2010; Cohen et al., 2025)๋, ์์ธก ๋์์ด ์ธ๋ถ ์์ธ์ ์์กดํ๋ ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก(covariate-informed forecasting) ๋ฌธ์ ์ ์ง๋ฉดํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
์๋ฅผ ๋ค์ด, CPU ์ฌ์ฉ๋, ๋ฉ๋ชจ๋ฆฌ ์๋น๋, ์คํ ๋ฆฌ์ง I/O์ ๊ฐ์ ํด๋ผ์ฐ๋ ์ธํ๋ผ ์งํ๋ค์ ์ํธ ์์กด์ ์ผ๋ก ๋ณํํ๋ฉฐ ๊ณต๋ ๋ชจ๋ธ๋ง์ ํตํด ๋ ๋์ ์์ธก ์ฑ๋ฅ์ ์ป์ ์ ์์ต๋๋ค (Cohen et al., 2025). ๋ํ ์๋งค ์์๋ ํ๋ก๋ชจ์ ํ๋์ ํฌ๊ฒ ์ํฅ์ ๋ฐ์ผ๋ฉฐ, ์๋์ง ์๋น ํจํด์ ๊ธฐ์ ์กฐ๊ฑด์ ์ํด ์ข์ฐ๋ฉ๋๋ค (Petropoulos et al., 2022). ์ด์ฒ๋ผ ๋ค๋ณ๋ ๋ฐ ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก์ ์ง์ํ์ง ๋ชปํ๋ ์ ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ์ค์ ์ด์ ์์คํ ์ ๊ด๋ฒ์ํ๊ฒ ์ฑํ๋๋ ๋ฐ ์์ด ์ฃผ์ํ ์ฅ์ ์์ธ์ผ๋ก ์์ฉํฉ๋๋ค.
๋ค๋ณ๋ ์ข ์์ฑ๊ณผ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์๋ ๋ฒ์ฉ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ๊ฐ๋ฐ์ ๋ ๊ฐ์ง ์ด์ ๋ก ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค. ์ฒซ์งธ, ์์ธก ๋ฌธ์ ์ ์ด์ง์ฑ์ผ๋ก ์ธํด ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ฌ๊ณ ๊ฐ ํ์ํฉ๋๋ค. ๊ฐ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ณ์์ ๊ฐ์์ ๊ทธ ์๋ฏธ๋ก ์ ํด์์ด ์์ดํ๋ฉฐ, ์ฌ์ ์ ์๋ ค์ง์ง ์์ ์์ ์์๋ ๋ณ์ ๊ฐ ์ํธ์์ฉ ๊ตฌ์กฐ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์ ํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ฃผ์ด์ง ๋งฅ๋ฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฌํ ์ํธ์์ฉ์ ์ค์ค๋ก ์ถ๋ก ํ ์ ์์ด์ผ ํฉ๋๋ค. ๋์งธ, ๋ค๋ณ๋ ์ข ์์ฑ๊ณผ ์ ์๋ฏธํ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํ๋ ๊ณ ํ์ง ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ ์์ฒด๊ฐ ๋งค์ฐ ์ ํ์ ์ ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก์ ๋ชจ๋ ์ ๋ก์ท(zero-shot) ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋ ์ฌ์ ํ๋ จ ๋ชจ๋ธ Chronos-2๋ฅผ ์ ์ํฉ๋๋ค. Chronos-2๋ ์ธ์ปจํ ์คํธ ํ์ต(in-context learning, ICL)์ ํ์ฉํ์ฌ ๋ค๋ณ๋ ์์ธก์ ์ง์ํ๋ฉฐ, ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ง ์ฃผ์ด์ง๋ ๊ฒฝ์ฐ๋ฟ๋ง ์๋๋ผ ๋ฏธ๋ ๊ฐ์ด ์๋ ค์ง ๊ณต๋ณ๋, ์ค์๊ฐ ๋๋ ๋ฒ์ฃผํ ๊ณต๋ณ๋์ ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ๋ํ ํฅ์๋ ICL ๋ฅ๋ ฅ์ ๋ฐฐ์น ๋ด์ ๋จ๋ณ๋ ์๊ณ์ด๋ค ๊ฐ ์ ๋ณด ๊ณต์ ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ํฌ๋ก์ค ํ์ต(cross learning)์ ํตํด ๋จ๋ณ๋ ์์ธก ์ฑ๋ฅ ์ญ์ ํฅ์์ํต๋๋ค.
Chronos-2์ ICL ๊ธฐ๋ฅ์ ํต์ฌ์ ๊ทธ๋ฃน ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์์ต๋๋ค. ์ด ๋ฉ์ปค๋์ฆ์ ๊ด๋ จ ์๊ณ์ด๋ค์ ์์์ ์งํฉ, ๋ค๋ณ๋ ์๊ณ์ด์ ๊ฐ ๋ณ๋, ํน์ ์์ธก ๋์๊ณผ ๊ณต๋ณ๋(๊ณผ๊ฑฐ ํน์ ๋ฏธ๋ ๊ฐ์ด ์๋ ค์ง ๊ฒฝ์ฐ)์ ํ๋์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด ๊ทธ๋ฃน ๋ด๋ถ์์ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํ๊ฒ๊ณผ ๊ณต๋ณ๋์ ๋จ์ํ ์ฐ๊ฒฐ(concatenation)ํ์ฌ ์ ๋ ฅ ๋งฅ๋ฝ์ ํ์ฅํ๋ ๋์ , ๊ทธ๋ฃน ์ดํ ์ ๋ ์ด์ด๋ ๋ฐฐ์น ์ฐจ์์ ๊ฐ๋ก์ง๋ฌ ๊ทธ๋ฃน ๋จ์๋ก ์ ๋ณด๋ฅผ ๊ณต์ ํจ์ผ๋ก์จ ๋ณ๋ ์๊ฐ ์ฆ๊ฐํ๋๋ผ๋ ์ฐ์ํ๊ฒ ํ์ฅ๋ฉ๋๋ค. Chronos-2์ ๋ ๋ค๋ฅธ ํต์ฌ ๊ธฐ์ฌ๋ ํ์ต ์ ๋ต์ ์์ผ๋ฉฐ, ICL ๊ธฐ๋ฅ์ ํ์ฑํํ๊ธฐ ์ํด ๊ธฐ๋ณธ ๋จ๋ณ๋ ์์ฑ๊ธฐ๋ก๋ถํฐ ์ํ๋งํ ์๊ณ์ด์ ์ธ์์ ์ผ๋ก ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌํ ํฉ์ฑ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํฉ๋๋ค. ํ ํฐํ ๊ณผ์ ๊ณผ ๋ชจ๋ธ๋ง์ ํฌํจํ Chronos-2์ ์ ์ฒด ์ถ๋ก ํ์ดํ๋ผ์ธ์ ๊ทธ๋ฆผ 1์ ์ ์๋์ด ์์ต๋๋ค.
fev-bench (Shchur et al., 2025), GIFT-Eval (Aksu et al., 2024), Chronos Benchmark II (Ansari et al., 2024)๋ฅผ ํฌํจํ ํฌ๊ด์ ์ธ ์์ธก ๋ฒค์น๋งํฌ ์คํ ๊ฒฐ๊ณผ, Chronos-2๋ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ํ์ธํ์์ต๋๋ค. ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก์ ๋ชจ๋ ํฌํจํ๋ fev-bench์์ Chronos-2๋ ๋ชจ๋ ๋ฒ์ฃผ์์ ๊ธฐ์ค ๋ชจ๋ธ๋ค์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ์์ผ๋ฉฐ, ํนํ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๊ณผ์ ์์ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. ์ด๋ ์ค์ ํ์ฉ๋๊ฐ ๋์ ์ค์ ์์ Chronos-2์ ๊ฐ์ ์ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ์ฑ๋ฅ ํฅ์์๋ ๋ถ๊ตฌํ๊ณ Chronos-2๋ ๋์ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ฉฐ, ๋จ์ผ ์ค๊ธ GPU(NVIDIA A10G) ํ๊ฒฝ์์ ์ด๋น ์ฝ 300๊ฐ์ ์๊ณ์ด์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
๋ณธ ๊ธฐ์ ๋ณด๊ณ ์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. 2์ฅ์์๋ ์๊ณ์ด ์์ธก์ ๋ฐฐ๊ฒฝ๊ณผ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์, ํนํ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์ค์ฌ์ผ๋ก ์ค๋ช ํฉ๋๋ค. 3์ฅ์์๋ Chronos-2์ ์ํคํ ์ฒ์ ํ์ต ๋ฐ ์ถ๋ก ํ์ดํ๋ผ์ธ์ ์์ธํ ๋ค๋ฃน๋๋ค. 4์ฅ์์๋ ํ์ต์ ์ฌ์ฉ๋ ์ฝํผ์ค๋ฅผ ์๊ฐํ๋ฉฐ, 5์ฅ์์๋ ์ธ ๊ฐ์ง ์์ธก ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ์ ํจ๊ป ์๋์ง ๋ฐ ์๋งค ๋๋ฉ์ธ ์ฌ๋ก ์ฐ๊ตฌ, ๊ทธ๋ฆฌ๊ณ ablation ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก 6์ฅ์์๋ ๊ฒฐ๋ก ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ ผ์ํฉ๋๋ค.
๋ ผ์
๋ณธ ์ฐ๊ตฌ์์๋ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ์ ๋ณด๊ฐ ํฌํจ๋ ์์ ์ ํฌํจํ์ฌ ๊ด๋ฒ์ํ ์์ธก ์๋๋ฆฌ์ค๋ฅผ ์ ๋ก์ท ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋ ์ฌ์ ํ์ต ์๊ณ์ด ๋ชจ๋ธ์ธ Chronos-2๋ฅผ ์ ์ํ์์ต๋๋ค. ์ธ ๊ฐ์ง ํฌ๊ด์ ์ธ ์์ธก ๋ฒค์น๋งํฌ ์ ๋ฐ์ ๊ฑธ์ณ Chronos-2๋ ๊ธฐ์กด์ ๊ธฐ์ด ๋ชจ๋ธ๋ค์ ๋นํด ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ธ์ปจํ ์คํธ ํ์ต์ด ๋ค์ํ ์์ธก ์์ ์ ํ์ ๊ฑธ์ณ ์์ธก ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
ํนํ ๊ณต๋ณ๋ ์ ๋ณด๊ฐ ํฌํจ๋ ์์ธก ์์ ์์ ํ์ ํ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๊ด์ฐฐ๋์๋๋ฐ, ์ด๋ Chronos-2๊ฐ ๊ธฐ์กด ๊ธฐ์ด ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ํฌ๊ฒ ์ํํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ด ์ง๋ ํ๊ณ๋ฅผ ๋๋ฌ๋ด๋ ๋์์, ์ ํํ ์์ธก์ ์ํด ๊ณต๋ณ๋๊ณผ ๊ฐ์ ๋ฌธ๋งฅ ์ ๋ณด๊ฐ ์ํํ๋ ํต์ฌ์ ์ธ ์ญํ ์ ๊ฐ์กฐํฉ๋๋ค. ๋น๋ก Chronos-2๋ ํ์ฌ ์ซ์ํ ๋ฐ ๋ฒ์ฃผํ ๊ณต๋ณ๋๋ง์ ์ง์ํ์ง๋ง, ์ฌ์ ํ์ต๋ ์๊ณ์ด ๋ชจ๋ธ์ ํ์ฅํ์ฌ ํ ์คํธ์ ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ํตํฉํ๋ ๋ฐฉํฅ์ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ ์ ๋งํ ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค (Zhang et al., 2025).
๋ํ ๋ณธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ์์ธก ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐ ์์ด ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๋ค์ ํ ๋ฒ ๋ถ๊ฐํฉ๋๋ค. Chronos-2๊ฐ ๋จ๋ณ๋ ์์ธก์ ๋์ด์๋ ๋ฅ๋ ฅ์ ํ๋ํ๋ ๋ฐ์๋ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ฉฐ, ์ ๊ฑฐ ์คํ ๊ฒฐ๊ณผ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์กฐ์ฐจ ์ค์ ๋ฐ์ดํฐ์ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ์ฌ ํ์ตํ ๋ชจ๋ธ์ ๋นํด ์ฑ๋ฅ ์ ํ๊ฐ ์ ํ์ ์์ ํ์ธํ์์ต๋๋ค. ์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ํฅํ ์ฌ์ ํ์ต ์๊ณ์ด ๋ชจ๋ธ์ ๋ฐ์ ๊ณผ์ ์์ ์ ์ ๋ ์ค์ฌ์ ์ธ ์ญํ ์ ์ํํ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, Chronos-2์ ์ ์ฐํ ๊ทธ๋ฃน ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ถ๊ฐ์ ์ธ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํฌ์ํ ๋ฉํ๋ฐ์ดํฐ๋ ๋ฐ์ง ์๋ฒ ๋ฉ์ ํ์ฉํ์ฌ ์๊ณ์ด์ ๊ทธ๋ฃนํํจ์ผ๋ก์จ ๊ฒ์ ์ฆ๊ฐ ์์ธก(retrieval-augmented forecasting)์ ๊ตฌํํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ธ ํ๊ฒฝ์ด๋ ์ฝ๋ ์คํํธ ์๋๋ฆฌ์ค์์ ์์ธก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
๋ด์ฉ
์๋ก
๋๊ท๋ชจ ์๊ณ์ด ๋ฐ์ดํฐ ๋ชจ๋ธ : Chronos(Ansari et al., 2024; Das et al., 2024b)์ ํตํด ์์ธก ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋จ์ํ ์์ผฐ๋ค. ์ถ๊ฐ์ ์ผ๋ก, pretrained model์ด ํนํ ๋ชจ๋ธ๊ณผ ๋น์ทํ๊ฑฐ๋, ๋ ๋์ ๊ฒฝ์ฐ๋ฅผ ๋ณด์ด๋ ๊ฒฝ์ฐ๋ ์๋ค.(GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation, Ansari et al., 2024; Das et al., 2024b)
๊ทธ๋ฌ๋, ๋ค๋ถ๋ถ์ ๋ชจ๋ธ์ ๋จ๋ณ๋ ์๊ณ์ด์๋ง ์ ์ฉ ๊ฐ๋ฅํ๊ณ , ์์ธก ์ ๋จ์ผ ์๊ณ์ด์ ๊ณผ๊ฑฐ ๊ด์ธก์น๋ง ํ์ฉํ๋ค. ์ด๋ ์ค์ ์ด์ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ด์ง ์๋ค. ์ค์ ๋ก ์ฐ๋ฆฌ๊ฐ ์ง๋ฉดํ๋ ๋ฌธ์ ๋ ์๋์ ๊ฐ๋ค.
- ๋ค๋ณ๋ ๋ฌธ์ : ์ฌ๋ฌ ์๊ณ์ด์ ๋์์ ์์ธก
- ๊ณต๋ณ๋ ๋ฌธ์ : ์์ธก ๋์์ด ์ธ๋ถ ์์ธ์ ์์กด e.g. ํด๋ผ์ฐ๋ ์ธํ๋ผ ์งํ : CPU ์ฌ์ฉ๋ + ๋ฉ๋ชจ๋ฆฌ ์๋น๋ + ์คํ ๋ฆฌ์ง I/O etc. ์ฆ, ์ด๋ฅผ ๋จ๋ณ๋ ๋ชจ๋ธ์ ์ฑํํ๋๊ฒ์ ์ฃผ์ํ ์ฅ์ ์์ธ์ด๋ค.
๋ค๋ณ๋ ๋ชจ๋ธ ์ค๊ณ์ ์ด๋ ค์์ ์๋์ ๊ฐ๋ค.
- ์์ธก ๋ฌธ์ ์ ์ด์ง์ฑ : ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ฌ๊ณ ๊ฐ ํ์ โ ๊ฐ๋ณ ๋ค์ด์คํธ๋ฆผ task๋ ๋ณ์์ ๊ฐ์์ ๊ทธ ์๋ฏธ๋ก ์ ํด์์ด ์์ดํ๊ฑฐ๋, ์ฌ์ ์ ์๋ ค์ง์ง ์์ ์์ ์์๋ ๋ณ์ ๊ฐ ์ํธ์์ฉ ๊ตฌ์กฐ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์ ํ ์ ์๋ค.
- ๋ฐ์ดํฐ๊ฐ ์๋ค : ๊ณ ํ์ง ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ๊ฐ ์๋ค.
Chronos-2๋ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก์ ๋ชจ๋ zero-shot์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณํ์๋ค.
- ICL
- ๋ค๋ณ๋ ์์ธก์ ์ง์(๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ง ์ฃผ์ด์ง ๊ฒฝ์ฐ)
- ๋ฏธ๋ ๊ฐ์ด ์๋ ค์ง ๊ณต๋ณ๋, ์ค์ ํน์ ๋ฒ์ฃผํ ๊ณต๋ณ๋์ ๋ชจ๋ ์ฒ๋ฆฌ
- cross learning : ๋ฐฐ์น ๋ด์ ๋จ๋ณ๋ ์๊ณ์ด๋ค ๊ฐ ์ ๋ณด๋ฅผ ๊ณต์ ํ์ฌ ๋จ๋ณ๋ ์์ธก ์ฑ๋ฅ ์ญ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Group Attention : ๊ด๋ จ ์๊ณ์ด๋ค์ ์์์ ์งํฉ, ๋ค๋ณ๋ ์๊ณ์ด์ ๊ฐ ๋ณ๋, ์์ธก ๋์๊ณผ ๊ณต๋ณ๋(๊ณผ๊ฑฐ or ๋ฏธ๋์ ๊ฐ์ด ์๋ ค์ง ๊ฒฝ์ฐ)๋ฅผ ํ๋์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด ๊ทธ๋ฃน ๋ด๋ถ์์ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ค.
- ํ๊ฒ๊ณผ ๊ณต๋ณ๋์ concatํ๋ ๋์ , ๋ฐฐ์น ์ฐจ์์ ๊ฐ๋ก์ง๋ฌ ๊ทธ๋ฃน ๋จ์๋ก ์ ๋ณด๋ฅผ ๊ณต์ ํ์ฌ ๋ณ๋ ์๊ฐ ์ฆ๊ฐํ๋๋ผ๋ ํ์ฅ๊ฐ๋ฅํด์ง
- ํ์ต ์ ๋ต
- ๋จ๋ณ๋ ์์ฑ๊ธฐ๋ก๋ถํฐ ์ํ๋งํ ์๊ณ์ด โ ์ธ์์ ์ธ ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌ
๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๊ณผ์ ์์ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ ๋์ ๊ณ์ฐ ํจ์จ์ฑ : ๋จ์ผ ์ค๊ธ GPU(NVIDIA A10G) ํ๊ฒฝ์์ ์ด๋น ์ฝ 300๊ฐ์ ์๊ณ์ด์ ์ฒ๋ฆฌ
๋ ผ์
๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ์ ๋ณด๊ฐ ํฌํจ๋ ์์ ์ ํฌํจํ ๊ด๋ฒ์ํ ์์ธก ์๋๋ฆฌ์ค๋ฅผ zero-shot์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ chronos-2๋ฅผ ๊ฐ๋ฐํ์์
- ICL์ด ๋ค์ํ ์์ธก ์์ ์ ํ์ ์์ธก ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํด
- ํนํ, ๊ณต๋ณ๋ ๋ฌธ์ ์์ ํฌ๊ฒ ํจ๊ณผ์ ์ด๋ค. ์ด๋ ๊ณต๋ณ๋๊ณผ ๊ฐ์ ๋ฌธ๋งฅ ์ ๋ณด๊ฐ ํต์ฌ์ ์ธ ๊ธฐ๋ฅ์ ํ๋ค๊ณ ๋ณผ ์ ์๋ค. ๋น๋ก chronos-2๋ ์ซ์ ๋ฐ ๋ฒ์ฃผํ ๊ณต๋ณ๋๋ง ์ง์ํ์ง๋ง, ์ถํ ๋ฉํฐ๋ชจ๋ฌ๋ก๋ ์ ๋ฐ์ดํธ ํ ์ ์์๊ฒ์ด๋ค.
์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋๋ฐ, ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ๋ชน์ ์ค์ํ๋ค. ์ด๋ chronos-2๊ฐ ๋จ๋ณ๋ ์์ธก์ ๋์ด์๋ ์์ธก์ ํ๊ฒ ํ๋ ํต์ฌ์ ์ธ ์ญํ ์ด์๊ณ , ์ด๋ ์ถํ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ํฅํ ์๊ณ์ด ๋ชจ๋ธ์์ ํต์ฌ์ ์ธ ์ญํ ์ ์ํํ ๊ฒ์ ์์ฌํ๋ค.
Group Attention์ ํตํด, ํฌ์ํ ๋ฉํ๋ฐ์ดํฐ๋, ๋ฐ์งํ ์๋ฒ ๋ฉ์ ํ์ฉํ์ฌ ์๊ณ์ด์ ๊ทธ๋ฃนํ ์ํค๊ณ RAG๋ฅผ ๊ตฌํํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ธ ์ํฉ์์ ์์ธก ์ฑ๋ฅ์ ํฅ์์ํค๋๋ฐ ๊ธฐ์ฌํ ์ ์๋ค.
ํฌ์ธํธ
์๋ก
NOTE In-Context Learning ๋ชจ๋ธ์ ๊ฐ์ค์น(Weight)๋ฅผ ์๋ก ํ์ต์ํค์ง ์๊ณ ๋, ์ ๋ ฅ๊ฐ(Context)์ผ๋ก ์ฃผ์ด์ง ์์๋ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ์ฆ์์์ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ์์ ๊นจ์ฐ์น๋ ๋ฅ๋ ฅ์ผ๋ก chronos-2์์๋, ์๋ก์ด ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์๋ ์ด ๋ฐ์ดํฐ์ ๊ณผ๊ฑฐ ํจํด์ context๋ก ์ผ์ ์์ธก ์ฆ, ๋ณ๋์ ํ๋ ์์ด โ๋์น๊ป ๋ง์ถ๋โ๋ฅ๋ ฅ
๋ค๋ณ๋ vs ๊ณต๋ณ๋
| ๊ตฌ๋ถ | ๋ค๋ณ๋ (Multivariate) | ๊ณต๋ณ๋ (Covariate) |
|---|---|---|
| ์์ธก ํ๊ฒ ์ | ์ฌ๋ฌ ๊ฐ | ํ๋ |
| ๋ณ์์ ์ง์ | ๋ชจ๋ ์ฃผ์ธ๊ณต | ํ๊ฒ 1๊ฐ๋ง ์ฃผ์ธ๊ณต |
| ๋ค๋ฅธ ๋ณ์ ์ญํ | ์๋ก ๊ฒฐ๊ณผ | ๋ณด์กฐ ์ ๋ณด |
| ์์ธก ๋์ ์ฌ๋ถ | ์ ๋ถ ์์ธก | ํ๊ฒ๋ง ์์ธก |
| ์ค๋ฌด ํต์ฌ ์ง๋ฌธ | โ์ด๊ฒ๋ ๋ง์ถฐ์ผ ํ๋?โ | โ์ด๊ฑด ํํธ์ธ๊ฐ?โ |
๋ ผ์
(์์)
๐ฌ ์คํ๊ณผ์
๐ 2 Background and Related Work
๋ฒ์ญ
์๊ณ์ด ์์ธก์ ๊ณผ๊ฑฐ ๊ด์ธก๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์๊ฐ ์์ ๋ฐ์ดํฐ์ ๋ฏธ๋ ๊ฐ์ ์์ธกํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํ์์ ์ผ๋ก,
$Y_{1:T} = [y_1, \dots, y_T]$๋ ๊ธธ์ด๊ฐ $T$์ธ ๊ณผ๊ฑฐ ์๊ณ์ด์ ๋ํ๋ด๋ฉฐ, ๊ฐ ๊ด์ธก๊ฐ $y_t \in \mathbb{R}^D$๋ ๋จ๋ณ๋ ์๊ณ์ด์ ๊ฒฝ์ฐ $D=1$, ๋ค๋ณ๋ ์๊ณ์ด์ ๊ฒฝ์ฐ $D>1$์
๋๋ค.
์ด๋ฌํ ๊ณผ๊ฑฐ ๋งฅ๋ฝ์ด ์ฃผ์ด์ก์ ๋, ์์ธก ํธ๋ผ์ด์ฆ $H$์ ๋ํด ๋ค์ $H$๊ฐ์ ์๊ฐ ๋จ๊ณ $Y_{T+1:T+H}$๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค.
์์ธก ๊ณผ์ ์ ๊ณต๋ณ๋(์ธ์ ๋ณ์๋ผ๊ณ ๋ ํจ)์ ์ํด ์ง์๋ ์ ์์ต๋๋ค.
๊ณต๋ณ๋ ์๊ณ์ด์
$X_{1:T+H} = [x_1, \dots, x_{T+H}]$๋ก ํํ๋๋ฉฐ, ๊ฐ $x_t \in \mathbb{R}^M$์ ์ถ๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ๋ํ๋
๋๋ค.
์ด๋ ๊ณต๋ณ๋์ ๊ณผ๊ฑฐ ๊ตฌ๊ฐ($t \le T$)๋ฟ๋ง ์๋๋ผ ๋ฏธ๋ ๊ตฌ๊ฐ($t > T$)์ ๋ํด์๋ ์ ๊ณต๋ ์ ์์ต๋๋ค.
์ด ์์ธก ๋ฌธ์ ๋ ๊ฐ ์๊ฐ ๋จ๊ณ์์ ๋จ์ผ ๊ฐ์ ์ถ์ ํ๋ ํฌ์ธํธ ์์ธก(point forecasting)์ผ๋ก ์ ์๋ ์ ์์ผ๋ฉฐ, ๋๋ ์์ธก ๋ถํ์ค์ฑ์ ํฌ์ฐฉํ๊ธฐ ์ํด ๋ค์์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ํ๋ฅ ๋ก ์ ์์ธก(probabilistic forecasting)์ผ๋ก๋ ์ ์ํ๋ ์ ์์ต๋๋ค. \(P(Y_{T+1:T+H} \mid Y_{1:T}, X_{1:T+H})\)
์ ๋ก์ท ์์ธก(zero-shot forecasting)์ ์ถ๊ฐ์ ์ธ ํ์ต, ์ ์ ๋๋ ๋ฏธ์ธ ์กฐ์ ์์ด, ์ด์ ์ ๊ด์ธก๋์ง ์์ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ ๋ํด ๋ชจ๋ธ์ด ์ง์ ์์ธก์ ์์ฑํ๋ ์ค์ ์ ์๋ฏธํฉ๋๋ค.
์ฌ์ ํ์ต ๋ชจ๋ธ ํจ๋ฌ๋ค์ ์ด์ ์ ์๊ณ์ด ์์ธก ๋ฐฉ๋ฒ๋ก ์ ํฌ๊ฒ ๋ก์ปฌ ๋ชจ๋ธ๊ณผ ๊ธ๋ก๋ฒ ๋ชจ๋ธ๋ก ๊ตฌ๋ถ๋ฉ๋๋ค.
๋ก์ปฌ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์
๋ด ๊ฐ ์๊ณ์ด๋ง๋ค ๊ฐ๋ณ์ ์ธ ๋งค๊ฐ๋ณ์ ์งํฉ์ ํ์ตํ๋ฉฐ, ARIMA, ์ง์ ํํ๋ฒ(Exponential Smoothing) (Hyndman & Athanasopoulos, 2018), Theta ๋ฐฉ๋ฒ (Assimakopoulos & Nikolopoulos, 2000)๊ณผ ๊ฐ์ ๊ณ ์ ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ด ์ด์ ํด๋นํฉ๋๋ค.
๋ฐ๋ฉด ๊ธ๋ก๋ฒ ๋ชจ๋ธ์ ํ๋์ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์
๋ด ๋ชจ๋ ์๊ณ์ด์ ๊ฑธ์ณ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต์ ํ๋ ๋ฐฉ์์ผ๋ก, ์ง๋ 10์ฌ ๋
๊ฐ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ค์ฌ์ผ๋ก ๋๋ฆฌ ํ์ฉ๋์ด ์์ต๋๋ค.
๋ํ์ ์ธ ๊ธ๋ก๋ฒ ๋ชจ๋ธ๋ก๋ DeepState (Rangapuram et al., 2018), DeepAR (Salinas et al., 2020), TimeGrad (Rasul et al., 2021)์ ๊ฐ์ ์ํ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ชจ๋ธ, N-BEATS (Oreshkin et al., 2020) ๋ฐ N-HITS (Challu et al., 2023)์ ๊ฐ์ ์คํํ ์ํคํ ์ฒ, ๊ทธ๋ฆฌ๊ณ TFT (Lim et al., 2021)์ PatchTST (Nie et al., 2023)์ ๊ฐ์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ํคํ ์ฒ๊ฐ ์์ต๋๋ค.
์ต๊ทผ์๋ ์ฌ์ ํ์ต๋ ์์ธก ๋ชจ๋ธ์ด ์๊ณ์ด ์์ธก ๋ถ์ผ์์ ์๋ก์ด ํจ๋ฌ๋ค์์ผ๋ก ๋ถ์ํ๊ณ ์์ต๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์์๋ ์์ธก์ ์ํ ์ ์ด ํ์ต์ ์ ํ์ ์ธ ๊ฐ๋ฅ์ฑ์ด ๊ด์ฐฐ๋์์ง๋ง (Orozco & Roberts, 2020; Oreshkin et al., 2021; Jin et al., 2022; Nie et al., 2023), ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์์น์ ์ฑํํจ์ผ๋ก์จ ๋ค์ํ ๋ฐ์ดํฐ์
์ ๋ํ ์ ๋ก์ท ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ด๊ธฐ ์ฐ๊ตฌ๋ค์ ์ธ์ด ๋ชจ๋ธ์ ์๊ณ์ด ๋ฌธ์ ์ ์ง์ ์ ์ฉํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ์์ผ๋ (Gruver et al., 2023; Jin et al., 2024), ์ต๊ทผ ์ ๊ทผ๋ฒ๋ค์ ์ฃผ๋ก LLM์ ์ํคํ
์ฒ์ ์์ด๋์ด๋ฅผ ์ฐจ์ฉํ์ฌ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ํด ์ง์ ์ฌ์ ํ์ต์ ์ํํฉ๋๋ค (Das et al., 2024b; Garza et al., 2024; Ansari et al., 2024).
๋๋ถ๋ถ์ ์ฌ์ ํ์ต๋ ์์ธก ๋ชจ๋ธ์ ๋จ๋ณ๋ ์์ธก์ ๊ตญํ๋๋ฉฐ, ๋ค๋ณ๋ ์ค์ ์์๋ ๊ฐ ์ฐจ์์ ๋
๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ฑฐ๋ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ๋ฌด์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค (Rasul et al., 2023; Das et al., 2024b; Ansari et al., 2024; Liu et al., 2025; Auer et al., 2025b).
์์ธ์ ์ผ๋ก Moirai-1 (Woo et al., 2024)๊ณผ Toto (Cohen et al., 2025)๋ ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ์ํคํ
์ฒ์ ํตํฉํฉ๋๋ค.
๊ทธ๋ฌ๋ Moirai-1์ ๋ค๋ณ๋ ์
๋ ฅ์ ๋ด๋ถ์ ์ผ๋ก ํํํํ์ฌ ๊ณ ์ฐจ์ ํ์ฅ์ฑ์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, Toto๋ ๊ต์ฐจ ๋ณ์ ์ดํ
์
์ ๋์
ํ์ง๋ง ์๋ ค์ง ๊ณต๋ณ๋์ด๋ ๋ฒ์ฃผํ ๊ณต๋ณ๋์ ์ง์ํ์ง ์์ต๋๋ค.
COSMIC (Auer et al., 2025a)์ ํฉ์ฑ ์ฆ๊ฐ์ ํตํด ๊ณต๋ณ๋ ํ์ฉ์ ํ์ฅํ์ง๋ง ๋จ๋ณ๋ ํ๊ฒ์๋ง ์ ์ฉ๋ฉ๋๋ค.
๋ํ TabPFN-TS (Hoo et al., 2025)๋ ์๋ ค์ง ๊ณต๋ณ๋์ ํตํฉํ ์ ์์ผ๋, ๊ณผ๊ฑฐ ๊ณต๋ณ๋์ด๋ ๋ค๋ณ๋ ํ๊ฒ์ ๋ชจ๋ธ๋งํ์ง๋ ๋ชปํฉ๋๋ค.
์ด๋ฌํ ์ฐ๊ตฌ๋ค์ด ์ ์๋์์์๋ ๋ถ๊ตฌํ๊ณ , ๊ฒฝํ์ ๋ถ์์ ๋ฐ๋ฅด๋ฉด ๋๋ถ๋ถ์ ์ ๊ทผ ๋ฐฉ์์ ๋จ๋ณ๋ ๋ชจ๋ธ ๋๋น ์ ํ์ ์ธ ์ฑ๋ฅ ํฅ์๋ง์ ์ ๊ณตํ๋ฉฐ (ลปukowska et al., 2024; Auer et al., 2025a), ์ ๋ก์ท ์ค์ ์์ ๋ค๋ณ๋ ์ข ์์ฑ๊ณผ ๊ณต๋ณ๋์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ ๋ฌธ์ ๋ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์ ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด ๊ทธ๋ฃน ์ดํ
์
๋ฉ์ปค๋์ฆ์ ์ ์ํฉ๋๋ค.
์ด ๋ฉ์ปค๋์ฆ์ ๋ค๋ณ๋ ์์ธก์ ์ํ ๊ต์ฐจ ์ดํ
์
์ํคํ
์ฒ (Zhang & Yan, 2023; Rao et al., 2021; Arnab et al., 2021)์ ์ฌ๋ฌ ๋จ๋ณ๋ ์๊ณ์ด ๊ฐ์ ๊ต์ฐจ ํ์ต (Das et al., 2024a) ๊ฐ๋
์ ์ผ๋ฐํํ ๊ฒ์
๋๋ค.
๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ๊ทธ๋ฃน ์ดํ
์
์ ๊ด๋ จ ์๊ณ์ด์ ๊ทธ๋ฃน ๋จ์๋ก ์๋ํ๋ฉฐ, ์ํคํ
์ฒ ์์ ์ด๋ ์์
๋ณ ์ ์ ์์ด๋ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก ์์
์ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ์์ ์์ฐ์ค๋ฝ๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
ํ 1์ Chronos-2์ ๊ธฐ์กด ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค์ ๊ธฐ๋ฅ์ ๋น๊ตํฉ๋๋ค.
๋ด์ฉ
- ์๊ณ์ด : $Y_{1:T} = [y_1, \dots, y_T]$, $y_t \in \mathbb{R}^D$
- ๋จ๋ณ๋ : $D=1$
- ๋ค๋ณ๋ : $D>1$
์์ธก ๊ตฌ๊ฐ : $H$, $Y_{T+1:T+H}$
- ๊ณต๋ณ๋ ์๊ณ์ด : $X_{1:T+H} = [x_1, \dots, x_{T+H}]$, $x_t \in \mathbb{R}^M$
- ์ด๋ ๊ณต๋ณ๋์, ๊ณผ๊ฑฐ ๊ตฌ๊ฐ($t \le T$), ๋ฏธ๋ ๊ตฌ๊ฐ($t > T$) ๋ ๋ค ์ ๊ณต๋ ์ ์์.
- ์์ธก ๋ฌธ์ : ์ ์ถ์ (๋จ์ผ ๊ฐ), ํ๋ฅ ๋ก ์ ์์ธก \(P(Y_{T+1:T+H} \mid Y_{1:T}, X_{1:T+H})\)
- zero-shot : ์ถ๊ฐ์ ์ธ ํ์ต, ์ ์ ๋๋ fine tunning ์์ด, ๊ด์ธก๋์ง ์์ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ ๋ํด ๋ชจ๋ธ์ด ์ง์ ์์ธก
Local vs Global model
Local
๋ฐ์ดํฐ์ ๋ด ๊ฐ ์๊ณ์ด๋ง๋ค ๊ฐ๋ณ์ ์ธ ๋งค๊ฐ๋ณ์ ์งํฉ์ ํ์ต
- ARIMA, Exponential Smoothing, Thetaโฆ ์ ๊ฐ์ ๊ณ ์ ํต๊ณ ๋ชจ๋ธ
Global
ํ๋์ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ๋ด ๋ชจ๋ ์๊ณ์ด์ ๊ฑธ์ณ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต์
- DL๋ชจ๋ธ
- RNN : DeepState, DeepAR, TimeGrad
- Stack : N-BEATS, N-HITS
- TF : TFT, PatchTST
์ฌ์ ํ์ต ๋ชจ๋ธ
๊ธฐ์กด์๋ ์ ์ด ํ์ต ์์ฒด์ ์ ํ์ ์ธ ๊ฐ๋ฅ์ฑ์ด ๊ด์ฐฐ๋์๊ณ , ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํตํด์ LLM๊ณผ ์ ์ฌํ ์์น์ ์ฑํํ์ฌ zero-shot ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด๊ธฐ ์ฐ๊ตฌ๋ ์ธ์ด ๋ชจ๋ธ์ ์๊ณ์ด ๋ฌธ์ ์ ์ง์ ์ ์ฉํ๋๋ฐ ์ด์ ์ ๋ง์ถ์์ผ๋, ์ต๊ทผ์๋ LLM์ ์ฃผ์ ์ํคํ ์ฒ ์์ด๋์ด๋ฅผ ์ฐจ์ฉํ์ฌ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ง์ ์ฌ์ ํ์ต์ ์ํค๋ ํธ๋๋ โ ๋๋ถ๋ถ ๋จ๋ณ๋ ์์ธก์ ๊ตญํ๋์ด, ๊ฐ ์ฐจ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ฑฐ๋ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ๋ฌด์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
๋ค์ํ ๋ค๋ณ๋ ๋ชจ๋ธ๋ค์ ํ๊ณ(2025)
- Moirari-1์ ๊ฒฝ์ฐ ๋ค๋ณ๋ ์ ๋ ฅ์ ๋ด๋ถ์ ์ผ๋ก ํํํํ์ฌ ์ฒ๋ฆฌ โ ๊ณ ์ฐจ์ ํ์ฅ์ ํ๊ณ๊ฐ ์์
- COSMIC์ ๊ฒฝ์ฐ, ํฉ์ฑ ์ฆ๊ฐ์ ํตํด ๊ณต๋ณ๋ ํ์ฉ์ ํ์ฅํ์ง๋ง ์ด๋ ๋จ๋ณ๋ ํ๊ฒ์๋ง ์ ์ฉ
- TabPFN-TS์ ๊ฒฝ์ฐ, ์๋ ค์ง ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ํตํฉํ ์ ์์ผ๋, ๊ณผ๊ฑฐ์ ๊ณต๋ณ๋ ํน์ ๋ค๋ณ๋ ํ๊ฒ์ ๋ชจ๋ธ๋งํ ์ ์๋ค.
GroupAttention
์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด ๊ทธ๋ฃน ์ดํ ์ ์ ์ ์ํจ โ ๊ต์ฐจ ์ดํ ์ ์ํคํ ์ฒ (Zhang & Yan, 2023; Rao et al., 2021; Arnab et al., 2021)์ ์ฌ๋ฌ ๋จ๋ณ๋ ์๊ณ์ด ๊ฐ์ ๊ต์ฐจ ํ์ต (Das et al., 2024a) ๊ฐ๋ ์ ์ผ๋ฐํ ๊ธฐ์กด์ ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ, group attention์ ์๊ณ์ด์ ๊ทธ๋ฃน ๋จ์๋ก ์๋ํ๋ฉฐ ์ํคํ ์ฒ์ ์์ ์ด๋ adaptation์์ด ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋์ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ์์ ์ฒ๋ฆฌํ ์ ์์.
ํฌ์ธํธ
DeepAR ํ๋ฅ ์ ์๊ธฐํ๊ท RNN ๊ธฐ๋ฐ ๋ชจ๋ธ
- ์ํ์ ๊ฒฝ๋ง์ ํตํด ๊ณผ๊ฑฐ์ ์๊ณ์ด๋ก๋ถํฐ ๋ฏธ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ง์ ์ ์ผ๋ก ์์ธก
- ์ฌ๋ฌ ์๊ณ์ด์ globalํ๊ณ ํ์ต, ๋ถํฌ ํํ๋ก ํํํ๋ฏ๋ก ๋ถํ์ค์ฑ์ ๋ชจ๋ธ๋ง ๊ฐ๋ฅ
- ๊ณผ๊ฑฐ๊ฐ๊ณผ ๊ณต๋ณ๋์ ์ ๋ ฅ๋ฐ์ ์์ธก ๋ถํฌ๋ฅผ ์ถ๋ ฅ
๊ฐ์
- ๋ถํ์ค์ฑ ๋ชจ๋ธ๋ง ๊ฐ๋ฅ
- ๋๊ท๋ชจ ์๊ณ์ด์ ๊ฐํจ
- ์ ์ฒ๋ฆฌ ํ์์ฑ์ด ๋น๊ต์ ๋ฎ์
DeepState ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(SSM) + ๋ฅ๋ฌ๋ SSM โ ๋์ ์ํ(state)์ ๊ด์ธก(obs.)์ ๋์์ ํ์ตํ๋ฉฐ ๋ฅ๋ฌ๋์ ํตํด ๋ฐ์ดํฐ๋ฅผ ํตํด ์๋์ผ๋ก ํ์ตํ๋, ๊ตฌ์กฐ์ ํด์ ๊ฐ๋ฅ์ฑ์ ๋จ๊ฒจ๋
๊ฐ์
- ์ ์ ๋ฐ์ดํฐ๋ก ๊ตฌ์กฐ์ ํ์ต ๊ฐ๋ฅ
- ๋ชจ๋ธ ํด์์ ์ ๋ฆฌ
TimeGrad ํ์ฐ(diffusion) ๊ธฐ๋ฐ ํ๋ฅ ์๊ณ์ด ๋ชจ๋ธ diffusion model์ ์๊ณ์ด์ ์ ์ฉํ์ฌ ํ๋ฅ ์ ๋ถํฌ ์ํ๋ง ๊ธฐ๋ฐ ์์ธก, ๋ค๋ณ๋ ํ๋ฅ ์ ํจํด์ ์ถ์
๊ฐ์
- ๋ถํ์ค์ฑ์ด ํฐ ๋ฌธ์ ์ ์ ๋ฆฌ
- ์์ฐ์ค๋ฝ๊ฒ ๋ค๋ณ๋ ์๊ณ์ด ๊ตฌ์กฐ๋ฅผ ๋ค๋ฃธ
๋จ์
- ๊ณ์ฐ๋
- ์ํ๋ง ๋น์ฉ
N-BEATS MLP ๊ธฐ๋ฐ Residual ๋คํธ์ํฌ ์์ ํ MLP๊ธฐ๋ฐ ๊ตฌ์กฐ + Residual link๋ฅผ ํ์ฉ ํธ๋ ๋/๊ณ์ ์ฑ ๋ถํด๋ฅผ ์งํํ๋ ํด์๊ฐ๋ฅํ ๋ชจ๋์ ์ผ๋ฐ์ ์ธ ๋ชจ๋ ๋ ๋ค ๊ฐ๋ฅ
๊ฐ์
- RNN, TF์ ๋นํด ๋ณต์กํ์ง ์์ผ๋ฉด์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
- ๋ฎ์ ๋ฐ์ดํฐ ๊ฐ์ฉ์ฑ์๋ ํ๋ฅญํ ์ฑ๋ฅ
N-HITS Neural Hierarchical Interpolation ๋ชจ๋ธ N-BEATS์์ ํ์ฅ๋ ๋ชจ๋ธ, ๊ณ์ธต์ ๋ณด๊ฐ์ ์ด์ฉํด ์ฅ๊ธฐ์ ํจํด์ ์์ธกํ๋ฉฐ ์๋ก ๋ค๋ฅธ ์ค์ผ์ผ ํจํด์ ๋ถ๋ฆฌํ์ฌ ์์ธก์ ๋ฐ์
๊ฐ์
- TF๋ณด๋ค ์ข์๋๋ ์์
- ์ฅ๊ธฐ์์ธก ์ฑ๋ฅ์ ๊ฐ์
- ๋ณต์กํ ์๊ณ์ด ํจํด์ ๋ค์ค ์ค์ผ์ผ๋ก ํฌ์ฐฉ
TFT Transformer ๊ธฐ๋ฐ ๋ค๋ณ๋ ์๊ณ์ด ์์ธก TF๊ธฐ๋ฐ์ผ๋ก, ์ ์ ๋ณ์์ ์๊ณ์ด ๋ณ์๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ฉฐ gating๊ณผ variable selection์ ํฌํจํด ํด์๊ฐ๋ฅ์ฑ์ ์ ๊ณต
๊ฐ์
- ์ฌ๋ฌ ๋ฏธ๋ ์์ ์ ๋ํ ์์ธก์ ๊ฐ์ (MultiHorizon Forecasting)
- ๋ค์ํ ์ ๋ ฅ ํํ์ ๋ํด ์ฒ๋ฆฌ
PatchTST Transformer Long-term forecasting ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ํจ์นํ ์์ผ์ TF์ ์ ์ฉํ์ฌ ๊ธด ์๊ณ์ด์ ๋ํ ์์กด์ฑ์ ์ ํ์ต
๊ฐ์
- ์ฅ๊ธฐ ์์ธก์ ํจ์จ์ฑ
- TF ๊ณ์ฐ๋ ฅ ํฅ์
๐ 3 The Chronos-2 Model
๋ฒ์ญ
3 Chronos-2 ๋ชจ๋ธ
๋ณธ ์ ์์๋ Chronos-2 ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค.
๋จผ์ ์ค์ผ์ผ๋ง ๋ฐ ํ ํฐํ ๊ณผ์ ์ ์ค๋ช
ํ๊ณ , ์ด์ด์ Chronos-2์ ์ธ์ปจํ
์คํธ ํ์ต ๋ฅ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ทธ๋ฃน ์ดํ
์
๋ฉ์ปค๋์ฆ์ ํฌํจํ ์ํคํ
์ฒ๋ฅผ ๋ค๋ฃน๋๋ค.
๋ง์ง๋ง์ผ๋ก Chronos-2์ ํ์ต ๋ฐ ์ถ๋ก ํ์ดํ๋ผ์ธ์ ๋
ผ์ํฉ๋๋ค.
Chronos-2์ ์ ์ฒด ์ถ๋ก ํ์ดํ๋ผ์ธ์ ๊ทธ๋ฆผ 1์ ์๊ฐํ๋์ด ์์ต๋๋ค.
3.1 ์ค์ผ์ผ๋ง ๋ฐ ํ ํฐํ
์ ๋ ฅ ๊ตฌ์ฑ
๋ชจ๋ธ์ ํ๊ฒ ์๊ณ์ด $Y_{1:T}$์ ๊ณต๋ณ๋ $X_{1:T+H}$์์ ํ์๋ ๋ ๊ฐ์ ์
๋ ฅ์ผ๋ก ์๋ํฉ๋๋ค.
๋ชจ๋ ๊ณผ๊ฑฐ ๊ฐ์ \(V = [v_1, \dots, v_T]\) ๋ก ์ ์๋๋ฉฐ, ๊ฐ \(v_t \in \mathbb{R}^{D+M}\) ์ ํ๊ฒ ๊ด์ธก๊ฐ $y_t$์ ํด๋น ๊ณต๋ณ๋ ๋ฒกํฐ $x_t$๋ฅผ ์ฐ๊ฒฐํ ๊ฒ์
๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ๋ฏธ๋ ๊ฐ์ \(W = [w_{T+1}, \dots, w_{T+H}]\) ๋ก ์ ์๋๋ฉฐ, ๊ฐ \(w_t \in \mathbb{R}^{D+M}\) ์ ์๋ ค์ง ๋ฏธ๋ ๊ณต๋ณ๋ ๊ฐ์ ํฌํจํฉ๋๋ค.
ํ๊ฒ ๋๋ ๊ณผ๊ฑฐ ์ ์ฉ ๊ณต๋ณ๋์ ํด๋นํ๋ ํญ๋ชฉ์ ๋ฏธ๋ ๊ตฌ๊ฐ์์ ๋๋ฝ๋ ๊ฐ์ผ๋ก ์ค์ ๋ฉ๋๋ค.
๊ณต๋ณ๋ $X_{1:T+H}$์ ํฌํจ๋ ๋ฒ์ฃผํ ๋ณ์๋ $V$์ $W$๋ก ์ฐ๊ฒฐ๋๊ธฐ ์ ์ ์ค์๊ฐ ํํ์ผ๋ก ๋ณํ๋ฉ๋๋ค.
๋จ๋ณ๋ ํ๊ฒ์ ๊ฒฝ์ฐ, ํ๊ฒ๊ณผ์ ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ๋ฒ์ฃผ๋ฅผ ์์น ๊ฐ์ผ๋ก ๋งคํํ๋ ํ๊ฒ ์ธ์ฝ๋ฉ์ ์ ์ฉํฉ๋๋ค.
๋ค๋ณ๋ ํ๊ฒ์ ๊ฒฝ์ฐ์๋ ๊ฐ ๋ฒ์ฃผ์ ๊ณ ์ ํ ์ ์๋ฅผ ํ ๋นํ๋ ์์ํ ์ธ์ฝ๋ฉ์ ์ฌ์ฉํฉ๋๋ค.
๊ฐ๊ฑดํ ์ค์ผ์ผ๋ง
์
๋ ฅ ๊ฐ $V$์ $W$๋ ์์์ ์ค์ผ์ผ์ ๊ฐ์ง ์ ์์ผ๋ฏ๋ก, ํ ํฐํ ํ์ดํ๋ผ์ธ์ ์๊ณ์ด ์ ๊ทํ๋ถํฐ ์์ํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ํ์คํ ์ดํ ์ถ๊ฐ์ ์ผ๋ก $\sinh^{-1}$ ๋ณํ์ ์ ์ฉํฉ๋๋ค.
์ด ๋ก๊ทธ ์ ์ฌ ๋ณํ์ ๋ถ์ฐ์ ์์ ํํ๊ณ ์ด์์น๊ฐ ๋ชฉ์ ํจ์์ ๋ฏธ์น๋ ์ํฅ์ ์ค์ด๋ ๋ฐ ํจ๊ณผ์ ์
๋๋ค.
ํ์์ ์ผ๋ก, ๊ฐ ๊ณผ๊ฑฐ ๊ฐ๊ณผ ๋ฏธ๋ ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ด ์ ๊ทํ๋ฉ๋๋ค. \(\tilde{v}_{t,d} = \frac{\sinh^{-1}(v_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{1, \dots, T\}\)
\[\tilde{w}_{t,d} = \frac{\sinh^{-1}(w_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{T+1, \dots, T+H\}\]์ฌ๊ธฐ์ $\mu_d$์ $\sigma_d$๋ ๊ฐ๊ฐ ๊ณผ๊ฑฐ ๊ฐ $[v_{1,d}, \dots, v_{T,d}]$์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ์
๋๋ค.
๊ฒฐ์ธก๊ฐ์ $\mu_d$์ $\sigma_d$ ๊ณ์ฐ์์ ์ ์ธ๋ฉ๋๋ค.
์ ๊ทํ๋ ๊ณผ๊ฑฐ ๊ฐ๊ณผ ๋ฏธ๋ ๊ฐ์ ์ฐ๊ฒฐํ์ฌ ๋ค์ ์ ๋ ฅ ํ๋ ฌ์ ๊ตฌ์ฑํฉ๋๋ค. \(U = [\tilde{V}, \tilde{W}] \in \mathbb{R}^{(T+H) \times (D+M)}\)
๋ฉํ ํน์ง (Meta Features)
ํ ํฐํ ๊ณผ์ ์์ $U$์ ๊ฐ ์ฐจ์์ ๋
๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
ํ๋์ ์ฐจ์ $d$์ ํด๋นํ๋ ์ด \(u_d = [u_{1,d}, \dots, u_{T+H,d}]^\top\) ์ ๋ํด ๋ ๊ฐ์ง ๋ฉํ ํน์ง์ ์ถ๊ฐํฉ๋๋ค.
์ฒซ์งธ, ์๊ฐ ์ธ๋ฑ์ค \(j = -\frac{T}{C}, \dots, 0, \dots, \frac{H-1}{C}\) ๋ ๊ฐ ์๊ฐ ๋จ๊ณ์ ์๋์ ์์น๋ฅผ ์ธ์ฝ๋ฉํ๋ฉฐ, $C$๋ ๋ชจ๋ธ์ด ์ง์ํ๋ ์ต๋ ์ปจํ ์คํธ ๊ธธ์ด์ ๋๋ค.
๋์งธ, ๋ง์คํฌ $m_d$๋ ๊ฐ์ด ๊ด์ธก๋์์ ๋ 1, ๊ทธ๋ ์ง ์์ ๋ 0์ธ ์ด์ง ์งํ๋ก,
๊ณผ๊ฑฐ์ ๊ฒฐ์ธก๊ฐ๊ณผ ๋ฏธ๋์ ์๋ ค์ง ๊ณต๋ณ๋์ ๊ตฌ๋ถํ๋ ์ญํ ์ ์ํํฉ๋๋ค.
๋ง์คํฌ ์ ์ฉ ์ดํ ๋ชจ๋ ๊ฒฐ์ธก๊ฐ์ 0์ผ๋ก ๋์ฒด๋ฉ๋๋ค.
ํจ์นญ ๋ฐ ์๋ฒ ๋ฉ
์
๋ ฅ ์๊ณ์ด๊ณผ ๋ฉํ ํน์ง์ ๊ธธ์ด $P$์ ๋น๊ฒน์นจ ํจ์น๋ก ๋ถํ ๋ฉ๋๋ค.
์ปจํ
์คํธ์ ๋ฏธ๋ ๊ตฌ๊ฐ์ ๋ณ๋๋ก ํจ์นํ๋๋ฉฐ, $T$ ๋๋ $H$๊ฐ $P$์ ๋ฐฐ์๊ฐ ์๋ ๊ฒฝ์ฐ ์ ๋ก ํจ๋ฉ์ด ์ ์ฉ๋ฉ๋๋ค.
๊ฐ ํจ์น $(u_p, j_p, m_p)$๋ ๋ค์ ์์ฐจ ๋คํธ์ํฌ๋ฅผ ํตํด ์๋ฒ ๋ฉ๋ฉ๋๋ค. \(h_p = f_{\text{in},\phi}(u_p, j_p, m_p), \quad f_{\text{in},\phi} : \mathbb{R}^{3P} \rightarrow \mathbb{R}^{D_{\text{model}}}\)
์ฌ๊ธฐ์ $\phi$๋ ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ์ด๋ฉฐ, $D_{\text{model}}$์ ํธ๋์คํฌ๋จธ์ ์๋ ์ฐจ์์
๋๋ค.
์ปจํ
์คํธ์ ๋ฏธ๋ ํจ์น ์ฌ์ด์๋ ๊ตฌ๋ถ ํ ํฐ์ด์ ์ดํ
์
์ฑํฌ ์ญํ ์ ํ๋ REG ํ ํฐ์ ์ฝ์
ํฉ๋๋ค.
3.2 ์ํคํ ์ฒ
Chronos-2๋ ์ธ์ฝ๋ ์ ์ฉ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ก, T5 ์ธ์ฝ๋ ์ค๊ณ๋ฅผ ๋ฐ๋ฅธ ๊ตฌ์กฐ์ ๋๋ค.
์๊ฐ ์ดํ ์
์๊ฐ ์ดํ
์
๋ ์ด์ด๋ ์๊ฐ ์ถ์ ๋ฐ๋ผ ์
ํ ์ดํ
์
์ ์ ์ฉํ์ฌ ๋์ผ ์ฐจ์์ ํจ์น๋ค ๊ฐ ์ ๋ณด๋ฅผ ์ง๊ณํฉ๋๋ค.
์๋ ์์น ์๋ฒ ๋ฉ์ผ๋ก๋ RoPE๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๊ทธ๋ฃน ์ดํ ์
๊ทธ๋ฃน ์ดํ
์
๋ ์ด์ด๋ Chronos-2์ ์ธ์ปจํ
์คํธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํต์ฌ ์์์
๋๋ค.
๋์ผํ ํจ์น ์ธ๋ฑ์ค์์ ๋์ผ ๊ทธ๋ฃน์ ์ํ ์๊ณ์ด ๊ฐ์ ์ ๋ณด๋ง์ ์ง๊ณํฉ๋๋ค.
๊ทธ๋ฃน์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ ์ ์์ต๋๋ค.
- ๋จ์ผ ์๊ณ์ด (์์ ๋จ๋ณ๋ ์์ธก)
- ๊ด๋ จ ์๊ณ์ด ์งํฉ (๊ต์ฐจ ํ์ต)
- ๊ณต์ ๋์ ํน์ฑ์ ๊ฐ์ง ๋ณ์ ์งํฉ (๋ค๋ณ๋ ์์ธก)
- ํ๊ฒ๊ณผ ๊ณต๋ณ๋ ์งํฉ (๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก)
๊ฐ ํญ๋ชฉ์ ๊ทธ๋ฃน ID $g$๋ก ์๋ณ๋๋ฉฐ, ๊ทธ๋ฃน ์ดํ
์
์ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 2์ฐจ์ ๋ง์คํฌ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
๊ทธ๋ฃน ๋ด์๋ ์์ ๊ฐ๋
์ด ์์ผ๋ฏ๋ก ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉ๋์ง ์์ต๋๋ค.
Quantile Head
ํธ๋์คํฌ๋จธ ์คํ ์ดํ, ๋ฏธ๋ ํจ์น ์๋ฒ ๋ฉ์ ์์ฐจ ๋ธ๋ก์ ํต๊ณผํ์ฌ ๋ถ์์ ์์ธก \(\hat{Z} \in \mathbb{R}^{H \times D \times |Q|}\) ์ ์์ฑํฉ๋๋ค.
Chronos-2๋ ๋ค์ 21๊ฐ ๋ถ์์๋ฅผ ์์ธกํฉ๋๋ค. \(Q = \{0.01, 0.05, 0.1, \dots, 0.9, 0.95, 0.99\}\)
3.3 ํ๋ จ
ํ๋ จ ๋ฐฐ์น๋ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก ์์
์ ํผํฉํ์ฌ ๊ตฌ์ฑ๋ฉ๋๋ค.
๊ฐ ์์
์ $(D, M)$๊ณผ ๊ฐ ์ฐจ์์ ์ญํ ๋ก ์ ์๋๋ฉฐ, ์์
๋ณ ๊ทธ๋ฃน ID๊ฐ ํ ๋น๋ฉ๋๋ค.
๋ชจ๋ธ์ ๋ถ์์ ํ๊ท ์์ค์ ์ฌ์ฉํ์ฌ ํ์ต๋ฉ๋๋ค. $$ \sum_{q \in Q} \left[ q \cdot \max(z - \hat{z}_q, 0)
- (1-q) \cdot \max(\hat{z}_q - z, 0) \right] $$
์์ค์ ํ๊ฒ ์ฐจ์์ ๋ํด์๋ง ๊ณ์ฐ๋๋ฉฐ, ์๋ ค์ง ๊ณต๋ณ๋๊ณผ ๊ฒฐ์ธก ํ๊ฒ์ ์ ์ธ๋ฉ๋๋ค.
์ถ๋ ฅ ํจ์น ์๋ ํ๋ จ ์ค ๋ฌด์์๋ก ์ํ๋ง๋ฉ๋๋ค.
ํ๋ จ์ ๋ ๋จ๊ณ๋ก ์งํ๋ฉ๋๋ค.
์ฒซ ๋จ๊ณ์์๋ ์ปจํ
์คํธ ๊ธธ์ด 2048๋ก ์ฌ์ ํ์ต์ ์ํํ๊ณ ,
๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ์ปจํ
์คํธ ๊ธธ์ด๋ฅผ 8192๋ก ํ์ฅํ์ฌ ์ฅ๊ธฐ ์์กด์ฑ์ ํ์ตํฉ๋๋ค.
3.4 ์ถ๋ก
๋ถ์์ ์์ธก์ ๋ค์ ์ญ์ ๊ทํ๋ฅผ ํตํด ์๋ ์ค์ผ์ผ๋ก ๋ณต์๋ฉ๋๋ค. \(\hat{y}_{q,t,d} = \mu_d + \sigma_d \cdot \sinh(\hat{z}_{q,t,d})\)
์ถ๋ก ์ ๊ทธ๋ฃน ID๋ฅผ ํตํด ๋ค์ ์ค์ ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- ๋จ๋ณ๋ ์์ธก: ๊ฐ ์๊ณ์ด์ ๊ณ ์ ํ ๊ทธ๋ฃน ID
- ๋ค๋ณ๋ ์์ธก: ๋์ผ ์๊ณ์ด์ ๋ณ์์ ๋์ผ ๊ทธ๋ฃน ID
- ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก: ํ๊ฒ๊ณผ ๊ณต๋ณ๋์ ๋์ผ ๊ทธ๋ฃน ID
Chronos-2๋ ๋ชจ๋ ํญ๋ชฉ์ด ๋์ผ ๊ทธ๋ฃน์ ์ํ๋ ์ ์ฒด ๊ต์ฐจ ํ์ต ๋ชจ๋๋ ์ง์ํฉ๋๋ค.
๋ด์ฉ
Input
ํ๊ฒ ์๊ณ์ด $Y_{1:T}$์ ๊ณต๋ณ๋ $X_{1:T+H}$์์ ํ์๋ ๋ ๊ฐ์ ์ ๋ ฅ์ผ๋ก ์๋
๊ณผ๊ฑฐ๊ฐ
๊ฐ $v_t$๋ ํ๊ฒ ๊ด์ธก๊ฐ $y_t$์ ํด๋น ๊ณต๋ณ๋ ๋ฒกํฐ $x_t$๋ฅผ ์ฐ๊ฒฐ \(V = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_T \end{bmatrix} = \begin{bmatrix} y_1 & x_1 \\ y_2 & x_2 \\ \vdots & \vdots \\ y_T & x_T \end{bmatrix} \in \mathbb{R}^{T \times (D+M)}\)
๋ฏธ๋๊ฐ : ์์ธกํด์ผํ ๊ฐ + ์ด๋ฏธ ์๊ณ ์๋ ๊ฐ
๊ฐ $w_t$๋ ํ๊ฒ ๊ฐ $y_{T+i}$์ ์๊ณ ์๋ ๊ณต๋ณ๋ ๋ฒกํฐ $x_{T+i}$๋ฅผ ์ฐ๊ฒฐ \(W = \begin{bmatrix} w_{T+1} \\ w_{T+2} \\ \vdots \\ w_{T+H} \end{bmatrix} = \begin{bmatrix} * & x_{T+1} \\ * & x_{T+2} \\ \vdots & \vdots \\ * & x_{T+H} \end{bmatrix} \in \mathbb{R}^{H \times (D+M)}\) ๋ฒ์ฃผํ ๋ณ์ ๊ณต๋ณ๋์ ํฌํจ๋ ๋ฒ์ฃผํ ๋ณ์๋ V์ W๋ก ์ฐ๊ฒฐ๋๊ธฐ ์ ์ ์ค์๊ฐ ํํ์ผ๋ก ๋ณํ
- ๋จ๋ณ๋ : ํ๊ฒ๊ณผ์ ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ๋ฒ์ฃผ๋ฅผ ์์น ๊ฐ์ผ๋ก ๋งคํํ๋ ํ๊ฒ ์ธ์ฝ๋ฉ
- ๋ค๋ณ๋ : ๊ฐ ๋ฒ์ฃผ์ ๊ณ ์ ํ ์ ์๋ฅผ ํ ๋น ์์ํ ์ธ์ฝ๋ฉ
Robust Scailing
์ ๋ ฅ๊ฐ $V, W$๋ ์์์ ์ค์ผ์ผ์ ๊ฐ์ง ์ ์์ผ๋ฏ๋ก
- standardization + $\sinh^{-1}$ ๋ณํ
- ํนํ ์ํฌ์ฌ์ธ๋ณํ์ ๊ฒฝ์ฐ, ๋ถ์ฐ์ ์์ ํ์ํค๊ณ ์ด์์น๊ฐ ๋ชฉ์ ํจ์์ ๋ฏธ์น๋ ์ํฅ์ ์ค์ด๋๋ฐ ํจ๊ณผ์ ์ \(\tilde{v}_{t,d} = \frac{\sinh^{-1}(v_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{1, \dots, T\}\)
- $\mu_d$์ $\sigma_d$๋ ๊ฐ๊ฐ ๊ณผ๊ฑฐ ๊ฐ $[v_{1,d}, \dots, v_{T,d}]$์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ
- ๊ฒฐ์ธก๊ฐ์ $\mu_d$์ $\sigma_d$ ๊ณ์ฐ์์ ์ ์ธ
- ์ ๊ทํ๋ ๊ณผ๊ฑฐ ๊ฐ๊ณผ ๋ฏธ๋ ๊ฐ์ ์ฐ๊ฒฐํ์ฌ Input์ ๊ตฌ์ฑ \(U = [\tilde{V}, \tilde{W}] \in \mathbb{R}^{(T+H) \times (D+M)}\)
Meta Features
ํ ํฐํ ๊ณผ์ ์์ $U$์ ๊ฐ ์ฐจ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ ํ๋์ ์ฐจ์ $d$์ ํด๋นํ๋ \(u_d = [u_{1,d}, \dots, u_{T+H,d}]^\top\) ์์ ๋ฉํ feature์ ์ถ๊ฐํจ
- ์๊ฐ ์ธ๋ฑ์ค \(j = -\frac{T}{C}, \dots, 0, \dots, \frac{H-1}{C}\) ๊ฐ ์๊ฐ ๋จ๊ณ์ ์๋์ ์์น๋ฅผ ์ธ์ฝ๋ฉํ๋ฉฐ, $C$๋ ๋ชจ๋ธ์ด ์ง์ํ๋ ์ต๋ ์ปจํ ์คํธ ๊ธธ์ด
- ๋ง์คํฌ $m_d$ ๊ฐ์ด ๊ด์ธก๋์์ ๋ 1, ๊ทธ๋ ์ง ์์ ๋ 0์ธ ์ด์ง ์งํ. ๊ณผ๊ฑฐ์ ๊ฒฐ์ธก๊ฐ๊ณผ ๋ฏธ๋์ ์๋ ค์ง ๊ณต๋ณ๋์ ๊ตฌ๋ถํ๋ ์ญํ ์ ์ํ. ๋ง์คํฌ ์ ์ฉ ์ดํ ๋ชจ๋ ๊ฒฐ์ธก๊ฐ์ 0์ผ๋ก ๋์ฒด
ํจ์นญ ๋ฐ ์๋ฒ ๋ฉ
์ ๋ ฅ ์๊ณ์ด๊ณผ ๋ฉํ ํน์ง์ ๊ธธ์ด $P$์ ์๋์ฐ๋ก ๋ถํ ๊ณผ๊ฑฐ์ ๋ฏธ๋ ๊ตฌ๊ฐ์ ๋ณ๋๋ก ํจ์นํ, $T$ ๋๋ $H$๊ฐ $P$์ ๋ฐฐ์๊ฐ ์๋ ๊ฒฝ์ฐ ์ ๋ก ํจ๋ฉ์ด ์ ์ฉ ๊ฐ ํจ์น $(u_p, j_p, m_p)$๋ ๋ค์ ์์ฐจ ๋คํธ์ํฌ๋ฅผ ํตํด ์๋ฒ ๋ฉ \(h_p = f_{\text{in},\phi}(u_p, j_p, m_p), \quad f_{\text{in},\phi} : \mathbb{R}^{3P} \rightarrow \mathbb{R}^{D_{\text{model}}}\)
- $\phi$ : ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ
- $D_{\text{model}}$ : ํธ๋์คํฌ๋จธ์ ์๋ ์ฐจ์
์ปจํ ์คํธ์ ๋ฏธ๋ ํจ์น ์ฌ์ด ์ดํ ์ ์ฑํฌ ์ญํ ์ ํ๋ REG ํ ํฐ์ ์ฝ์
์ํคํ ์ฒ
Chronos-2๋ ์ธ์ฝ๋ ์ ์ฉ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ก, T5 ์ธ์ฝ๋ ๊ตฌ์กฐ
Time Attention
- ์๊ฐ ์ถ์ ๋ฐ๋ผ self-attention, ๋์ผ ์ฐจ์์ ํจ์น ๊ฐ ์ ๋ณด๋ฅผ ์ง๊ณ
- ์์น ์๋ฒ ๋ฉ : RoPE
Group Attention
๋์ผ ๊ทธ๋ฃน์ ์ํ ์๊ณ์ด ๊ฐ์ ์ ๋ณด๋ง ์ง๊ณ ๊ทธ๋ฃน์ ์ ์
- ๋จ๋ณ๋ ์๊ณ์ด
- ๊ด๋ จ ์๊ณ์ด ์งํฉ(๊ต์ฐจ ํ์ต)
- ๊ณต์ ๋ ๋์ ์ธ ํน์ง์ ๊ฐ์ง๋ ๋ณ์ ์งํฉ(๋ค๋ณ๋ ์๊ณ์ด)
- ๋ค์ผ๊ณผ ๊ณต๋ณ๋ ์งํฉ(๊ณต๋ณ๋) ๊ฐ ๊ทธ๋ฃน์ ๊ทธ๋ฃน ID $g$๋ก ์๋ณ๋๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 2์ฐจ์ ๋ง์คํฌ๋ฅผ ๊ตฌ์ฑํ์ฌ ์ดํ
์
๊ทธ๋ฃน ๋ด์๋ ์์๊ฐ๋
์ด ์์ผ๋ฏ๋ก ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉํ์ง ์์
Quantile Head
๋ฏธ๋ ํจ์น ์๋ฒ ๋ฉ์ ์์ฐจ๋ธ๋ญ์ ํต๊ณผํ๋ฉฐ ์์ฑ \(\hat{Z} \in \mathbb{R}^{H \times D \times |Q|}\)
Chronos-2๋ ๋ค์ 21๊ฐ ๋ถ์์๋ฅผ ์์ธก \(Q = \{0.01, 0.05, 0.1, \dots, 0.9, 0.95, 0.99\}\)
ํ๋ จ
์์ ๋ค์ํ ๊ทธ๋ฃน ์ ์๋ฅผ ํผํฉํ์ฌ ๊ตฌ์ฑ์ํด ๊ฐ ์์ ์ $(D, M)$๊ณผ ๊ฐ ์ฐจ์์ ์ญํ ๋ก ์ ์, ์์ ๋ณ ๊ทธ๋ฃน ID๊ฐ ํ ๋น
Loss : quantile reg. loss
$$ \sum_{q \in Q} \left[ q \cdot \max(z - \hat{z}_q, 0)
- (1-q) \cdot \max(\hat{z}_q - z, 0) \right] $$ target์ ๋ํด์๋ง ๊ณ์ฐ, ๋ฏธ๋์ ๊ณต๋ณ๋๊ณผ ๊ฒฐ์ธก ํ๊ฒ์ ์ ์ธ ํจ์น ์๋ ๋ฌด์์ ์ํ๋ง(ํ๋ จ์ค) ๊ณผ์
๋ถ์์ ์์ธก ์ญ์ ๊ทํ๋ฅผ ํตํด ์๋ ์ค์ผ์ผ๋ก ๋ณต์ \(\hat{y}_{q,t,d} = \mu_d + \sigma_d \cdot \sinh(\hat{z}_{q,t,d})\)
์ถ๋ก ์ ๊ทธ๋ฃน ID๋ฅผ ํตํด ๋ค์ ์ค์ ์ ์ฒ๋ฆฌ
- ๋จ๋ณ๋ ์์ธก: ๊ฐ ์๊ณ์ด์ ๊ณ ์ ํ ๊ทธ๋ฃน ID
- ๋ค๋ณ๋ ์์ธก: ๋์ผ ์๊ณ์ด์ ๋ณ์์ ๋์ผ ๊ทธ๋ฃน ID
- ๊ณต๋ณ๋ ๊ธฐ๋ฐ ์์ธก: ํ๊ฒ๊ณผ ๊ณต๋ณ๋์ ๋์ผ ๊ทธ๋ฃน ID Chronos-2๋ ๋ชจ๋ ํญ๋ชฉ์ด ๋์ผ ๊ทธ๋ฃน์ ์ํ๋ ์ ์ฒด ๊ต์ฐจ ํ์ต ๋ชจ๋๋ ์ง์
ํฌ์ธํธ
Input
Raw
\(V = \begin{bmatrix} y_1 & x_1 \\ y_2 & x_2 \\ \vdots & \vdots \\ y_T & x_T \end{bmatrix} \in \mathbb{R}^{T \times (D+M)}, \quad W = \begin{bmatrix} * & x_{T+1} \\ * & x_{T+2} \\ \vdots & \vdots \\ * & x_{T+H} \end{bmatrix} \in \mathbb{R}^{H \times (D+M)}\)
after Concat with scailing
\(U = \begin{bmatrix} \tilde{V} \\ \hline \tilde{W} \end{bmatrix} = \begin{bmatrix} \tilde{v}_{1,1} & \dots & \tilde{v}_{1,D+M} \\ \vdots & \ddots & \vdots \\ \tilde{v}_{T,1} & \dots & \tilde{v}_{T,D+M} \\ \hline \tilde{w}_{T+1,1} & \dots & \tilde{w}_{T+1,D+M} \\ \vdots & \ddots & \vdots \\ \tilde{w}_{T+H,1} & \dots & \tilde{w}_{T+H,D+M} \end{bmatrix} \in \mathbb{R}^{(T+H) \times (D+M)}\)
Input D
\(\text{Input for Dim } d = \begin{bmatrix} u_{1,d} & j_1 & m_{1,d} \\ \vdots & \vdots & \vdots \\ u_{T,d} & j_T & m_{T,d} \\ \hline u_{T+1,d} & j_{T+1} & m_{T+1,d} \\ \vdots & \vdots & \vdots \\ u_{T+H,d} & j_{T+H} & m_{T+H,d} \end{bmatrix} \in \mathbb{R}^{(T+H) \times 3}\)
Patching : u๋ฅผ P๊ฐ์ฉ
ํ๋์ ํจ์น
\(\text{Patch}_p = [\underbrace{u_{t}, \dots, u_{t+P-1}}_{P \text{ values}}, \quad \underbrace{j_{t}, \dots, j_{t+P-1}}_{P \text{ indices}}, \quad \underbrace{m_{t}, \dots, m_{t+P-1}}_{P \text{ masks}}]^\top \in \mathbb{R}^{3P}\)
x
\(\mathbf{X}_{\text{sequence}} = \Big[ \underbrace{\mathbf{h}_1, \dots, \mathbf{h}_n}_{\text{Context Patches}} , \quad \mathbf{e}_{\text{REG}} , \quad \underbrace{\mathbf{h}_{n+1}, \dots, \mathbf{h}_{n+m}}_{\text{Future Patches}} \Big]\) \(\mathbf{h}_p = f_{\text{in}} \left( \left[ \underbrace{u_{t:t+P, d}}_{\text{Values}} , \underbrace{j_{t:t+P}}_{\text{Indices}} , \underbrace{m_{t:t+P, d}}_{\text{Masks}} \right] \right) \in \mathbb{R}^{D_{\text{model}}}\)
RoPE(Rotary Position Embedding) ์ ๋ ฅ ๋ฒกํฐ๋ฅผ ํน์ ๊ฐ๋๋งํผ ํ์ ์์ผ ๋ฒกํฐ๋ฅผ ๋ํด์ฃผ๋ ๋ฐฉ๋ฒ e.g. t๋ฒ์งธ ์์น โ t๋ฒ์งธ์ ๋น๋กํ๋ ๊ฐ๋ $\theta$๋งํผ ํ์ ๋ณํ ์ด๋ฅผ ํตํด ๋ ํ ํฐ ์ฌ์ด์ ์ดํ ์ ๊ณ์ฐ์ ์งํํ ๋, ๊ฒฐ๊ณผ๊ฐ์ด ๋ ํ ํฐ์ ์๋์ ๊ฑฐ๋ฆฌ์๋ง ์์กดํ๊ฒ๋จ
Attention
- Time Attention : ์ด์ ์ ์ค๋ - ์๊ฐ ๊ด๊ณ ํ์ต
- Group Attention : ๊ฐ์ ์๊ฐ๋์ ์๋, ๋ณ๋๊ฐ ํ์ต
- ๋จ๋ณ๋ : ๊ฐ ์๊ณ์ด๋ง๋ค ์๋ก ๋ค๋ฅธ ID๋ก ์๊ธฐ์ ๊ณผ๊ฑฐ๋ฅผ ํตํด ํ์ต
- ๊ด๋ จ ์๊ณ์ด ์งํฉ(๊ต์ฐจ ํ์ต) : ๋น์ทํ ์ํ, ์ง์ญ์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ID๋ก ๋ฌถ์, ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์๊ณ์ด์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ํจํด์ context๋ก ๋น๋ ค์ฌ ์ ์์(few-shot)
- ๋ค๋ณ๋ : ํ ์์คํ ์ ์ฌ๋ฌ ๋ณ์๋ฅผ ๊ฐ์ ID๋ก ๋ฌถ์, ๋ณ์๋ค์ด ์ด๋ป๊ฒ ๋ฌถ์ฌ์๋์ง ๋ฐฐ์
- ํ๊ฒ๊ณผ ๊ณต๋ณ๋ : ์์ธกํ๋ ค๋ ๊ฐ๊ณผ ํํธ๋ฅผ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์
๐ 4 Training Data
๋ฒ์ญ
Chronos-2์ ๊ฐ์ ๋ฒ์ฉ ์ฌ์ ํ์ต(pretrained) ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ํ์ต ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ ํน์ ์ํคํ
์ฒ๋ณด๋ค๋ ๋ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
์ต๊ทผ ๋๊ท๋ชจ ์๊ณ์ด ๋ฐ์ดํฐ์
์ ๊ฐ์ฉ์ฑ์ด ํ๋๋๊ณ ์์์๋ ๋ถ๊ตฌํ๊ณ (Woo et al., 2024; Ansari et al., 2024; Aksu et al., 2024), ์ด๋ฌํ ๋ฐ์ดํฐ์
๋ค์ ์ฃผ๋ก ๋จ๋ณ๋ ์๊ณ์ด๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ Chronos-2์ ์ธ์ปจํ
์คํธ ํ์ต(in-context learning) ๋ฅ๋ ฅ์ ๋ถ์ฌํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ์์๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ํฌ๊ฒ ์์กดํ์์ต๋๋ค.
4.1 ๋จ๋ณ๋ ๋ฐ์ดํฐ
Chronos(Ansari et al., 2024) ๋ฐ GIFT-Eval(Aksu et al., 2024)์ ์ฌ์ ํ์ต ์ฝํผ์ค์์ ์ ๋ณํ ๋ฐ์ดํฐ์
์ Chronos-2์ ํ์ต ์ฝํผ์ค์ ํตํฉํ์์ต๋๋ค.
์ ์ฒด ๋ฐ์ดํฐ์
๋ชฉ๋ก์ ๋ถ๋ก์ ํ 6์ ์ ์๋์ด ์์ต๋๋ค.
๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด, ๋ค์์ ๋ ๊ฐ์ง ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ์ฌ ๋จ๋ณ๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์์ต๋๋ค.
TSI (Trend, Seasonality, Irregularity)
Bahrpeyma et al.(2021)์ ๊ธฐ๋ฐํ ์์ฑ๊ธฐ๋ก, ๋ค์ํ ์ถ์ธ(trend), ๊ณ์ ์ฑ(seasonality), ๋ถ๊ท์น์ฑ(irregularity) ๊ตฌ์ฑ ์์๋ฅผ ๋ฌด์์๋ก ์กฐํฉํ์ฌ ํญ๋์ ํฉ์ฑ ์๊ณ์ด์ ์์ฑํฉ๋๋ค.TCM (Temporal Causal Model)
์๊ฐ์ ์ธ๊ณผ ๋ชจ๋ธ(Runge et al., 2023)์์ ๋ฌด์์ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ํ๋งํ ๋ค, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๊ธฐํ๊ท(auto-regressive) ๊ณผ์ ์ ํตํด ์๊ณ์ด์ ์์ฑํฉ๋๋ค.4.2 ๋ค๋ณ๋ ๋ฐ์ดํฐ
๋ค๋ณ๋ ์์ธก ๋ฐ ๊ณต๋ณ๋(covariate) ๊ธฐ๋ฐ ์์
์ ๊ฒฝ์ฐ, ๋ณธ ์ฐ๊ตฌ์์๋ ์ ์ ์ผ๋ก ํฉ์ฑ ๋ฐ์ดํฐ์ ์์กดํ์์ต๋๋ค.
๋ค์ํ ๋ค๋ณ๋ ๊ตฌ์กฐ๋ฅผ ํํํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ (multivariatizer)๋ผ๋ ๊ฐ๋
์ ๋์
ํฉ๋๋ค.
๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ ๋ ๊ธฐ๋ณธ ๋จ๋ณ๋ ์์ฑ๊ธฐ๋ก๋ถํฐ ์ฌ๋ฌ ์๊ณ์ด์ ์ํ๋งํ ๋ค, ์ด๋ค ์ฌ์ด์ ์ข
์์ฑ์ ๋ถ์ฌํจ์ผ๋ก์จ ๋ค๋ณ๋ ๋์ญํ์ ์์ฑํ๋ ๋ฉ์ปค๋์ฆ์
๋๋ค.
๊ธฐ๋ณธ ๋จ๋ณ๋ ์์ฑ๊ธฐ๋ก๋ ์๊ธฐํ๊ท(AR) ๋ชจ๋ธ, ์ง์ ํํ(ETS) ๋ชจ๋ธ, TSI, ๊ทธ๋ฆฌ๊ณ KernelSynth(Ansari et al., 2024) ๋ฑ ๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํ์์ต๋๋ค.
์ฐ๋ฆฌ๋ ๋ค์์ ๋ ๊ฐ์ง ์ฃผ์ ๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ ํด๋์ค๋ฅผ ์ฌ์ฉํ์์ต๋๋ค.
๋์ ๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ (Cotemporaneous Multivariatizer)
๊ธฐ๋ณธ ๋จ๋ณ๋ ์์ฑ๊ธฐ์์ ์ํ๋ง๋ ์๊ณ์ด๋ค์ ๋ํด ๋์ผํ ํ์์คํ ์์ ์ ํ ๋๋ ๋น์ ํ ๋ณํ์ ์ ์ฉํฉ๋๋ค.
์ด๋ฅผ ํตํด ์๊ณ์ด ๊ฐ์ ์ฆ๊ฐ์ ์ธ ์๊ด๊ด๊ณ๋ฅผ ๋์ ํ ๋ค๋ณ๋ ์๊ณ์ด์ ์์ฑํฉ๋๋ค.์์ฐจ ๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ (Sequential Multivariatizer)
์๊ฐ ์ถ์ ๋ฐ๋ผ ์ข ์์ฑ์ ์ ๋ํจ์ผ๋ก์จ ์ ํโ์ง์ฐ ํจ๊ณผ(leadโlag effect)๋ ๊ณต์ ๋ถ(cointegration)๊ณผ ๊ฐ์ ๋ณด๋ค ํ๋ถํ ๋ค๋ณ๋ ํน์ฑ์ ์์ฑํฉ๋๋ค.
๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ ๋ฅผ ํตํด ์์ฑ๋ ๋ค๋ณ๋ ์๊ณ์ด์
(1) ๋ชจ๋ ๋ณ๋์ ์์ธกํด์ผ ํ๋ ๋ค๋ณ๋ ์์ธก ํ์คํฌ์,
(2) ๋ณ๋์ ์ผ๋ถ๊ฐ ๋ฌด์์๋ก ๊ด์ธก ๊ฐ๋ฅํ ๊ณต๋ณ๋์ผ๋ก ์ง์ ๋๋ ๊ณต๋ณ๋
๋ด์ฉ
๋จ๋ณ๋
Chronos, GIFT-Eval์ ์ฌ์ ํ์ต์์ ์ ๋ณํ ๋ฐ์ดํฐ์ ์ Chronos-2์ ์ฌ์ฉ
ํฉ์ฑ
- TSI(Trend, Seasonality, Irregularity) : trend(์ถ์ธ), seasonality(๊ณ์ ์ฑ), irregularity(๋ถํ์ค์ฑ)์ ๊ตฌ์ฑ ์์๋ฅผ ๋ฌด์์๋ก ์กฐํฉ
- TCM(Temporal Casual Model) : ์๊ฐ์ ์ธ๊ณผ ๋ชจ๋ธ์์ ๋ฌด์์ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ํ๋ง, AR(์๊ท ํ๊ท)๋ฐฉ์์ผ๋ก ์๊ณ์ด์ ์์ฑ
๋ค๋ณ๋
๋ค๋ณ๋ ์์ธก ๋ฐ ๊ณต๋ณ๋ task์ ๊ฒฝ์ฐ, ์ ์ ์ผ๋ก ํฉ์ฑ ๋ฐ์ดํฐ์ ์์กด Multivariatizer๋ผ๋ ๊ฐ๋ ์ ๋์ ๋จ๋ณ๋ ์์ฑ๊ธฐ๋ก๋ถํฐ ์ฌ๋ฌ ์๊ณ์ด์ ์ํ๋ง โ ์ด๋ค ์ฌ์ด์ ์ข ์์ฑ์ ๋ถ์ฌ = ๋ค๋ณ๋์ ์์ฑํ๋ ๋ฉ์ปค๋์ฆ ๋จ๋ณ๋ ์์ฑ๊ธฐ - AR model - ETS model - KernelSynth ๋ฑ
- Cotemporaneous Multivariatizer(๋์ ๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ ) : ๊ธฐ๋ณธ ๋จ๋ณ๋ ์์ฑ๊ธฐ์์ ์ํ๋ง๋ ์๊ณ์ด๋ค์ ๋ํด ๋์ผํ ์๊ฐ์์ ์ ํ ๋๋ ๋น์ ํ ๋ณํ์ ์ ์ฉ โ ์ด๋ฅผ ํตํด ์๊ณ์ด๊ฐ ์ฆ๊ฐ์ ์ธ ์๊ด๊ด๊ณ๋ฅผ ๋์ ํ ์๊ณ์ด์ ์์ฑ
- Sequential Multivariatizer(์์ฐจ ๋ฉํฐ๋ฒ ๋ฆฌ์ํ์ด์ ) : ์๊ฐ ์ถ์ ๋ฐ๋ผ ์ข ์์ฑ์ ์ ๋ โ ์ ํ-์ง์ฐํจ๊ณผ ํน์ ๊ณต์ ๋ถ๊ณผ ๊ฐ์ ๋ค๋ณ๋ ํน์ฑ์ ์์ฑ
ํฌ์ธํธ
TSI(Trend, Seasonality, Irregularity) ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๋ 3๊ฐ์ง ์ฑ๋ถ(์ถ์ธ, ๊ณ์ ์ฑ, ๋ถํ์ค์ฑ)์ ๋ฌด์์๋ก ์กฐํฉ(๊ธฐ์กด๋ฐ์ดํฐ๋ก๋ถํฐ ์ ๋ X)ํ์ฌ ๋จ๋ณ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑ โ ๋ชจ๋ธ์ด ํ์ตํด๋ณด์ง ๋ชปํ ํฌ๊ทํ ํจํด, ๋ฐ์ดํฐ๋ฌธ์ ํด๊ฒฐ
TCM(Temporal Causal Model) ์๊ฐ์ ๋ฐ๋ฅธ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง ๋ฌด์์ ์ธ๊ณผ ๊ทธ๋ํ๋ฅผ ์ํ๋ง ํ ์๊ธฐํ๊ท, A์ฌ๊ฑด์ด ๋ฐ์ํ๋ฉด ์ผ์ ์๊ฐ ๋ค B์ฌ๊ฑด์ ์ํฅ์ ์ค๋ค๋ ์๊ฐ์ ์ธ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ดํฐ์ ๋ถ์ฌ
- ๋ฌด์์ ์ธ๊ณผ ๊ทธ๋ํ : ๋ณ์๋ค ์ฌ์ด์ โ์์ธ๊ณผ ๊ฒฐ๊ณผโ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ์ง๋๋ฅผ ๋ฌด์์๋ก ๊ทธ๋ ค๋ธ ๊ฒ, ์ฆ ์ปดํจํฐ๊ฐ ์ด๋ค ๋ณ์๊ฐ ์ด๋ค ๋ณ์์ ์์ธ ํน์ ์ํฅ๋ ฅ์ด ์ผ๋ง๋ ๊ฐํ ์ง๋ฅผ ๋ฌด์์๋ก ๊ฒฐ์ ํ๋ฉฐ ์ด๋ ํ์ค์ธ๊ณ์ What-if์๋๋ฆฌ์ค๋ฅผ ์ํจ
์ ํ ์ง์ฐ ํจ๊ณผ ์๊ฐ์ฐจ ๊ด๊ณ๋ฅผ ์๋ฏธ. ํ ์๊ณ์ด(Lead)์ ์์ง์์ด ๋ค๋ฅธ ์๊ณ์ด(Lag)์ ์ผ์ ํ ์๊ฐ ๊ฐ๊ฒฉ์ ๋๊ณ ๋์ค์ ๋ํ๋๋ ํ์ e.g. ๊ฐ๊ฒฉ์ด ์ค๋ฅด๋ฉด(Lead)โ์์ ํ์ ๊ฐ๊ฒฉ์ด ์ค๋ฅด๋(Lag)๊ด๊ณ
๊ณต์ ๋ถ ๊ฐ๊ฐ์ ๋ถ์์ (Non-Stationary)ํ์ฌ ์ ๋ฉ๋๋ก ์์ง์ด๋ ๊ฒ ๊ฐ์ง๋ง, ์ฅ๊ธฐ์ ์ผ๋ก๋ ์ผ์ ํ ๊ด๊ณ๋ฅผ ์ ์งํ๋ฉฐ ํจ๊ป ์์ง์ด๋ ์ฑ์ง ๊ฐ๋ณ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ์ถ์ธ๋ฅผ ๊ฐ์ง๊ณ ์์ด ๋ถ์์ ํ๋๋ผ๋, ์ด๋ค์ ์ ํ ์กฐํฉ์ด ์์ ์ ์ธ ์ํ๊ฐ ๋ ๋ ๊ณต์ ๋ถ ๊ด๊ณ์ ์๋ค๊ณ ํ๋ค. e.g. ์ ์ทจํ ์ฌ๋๊ณผ ๊ฐ : ์๋ก ๋นํ๊ฑฐ๋ฆฌ์ง๋ง ๋ชฉ์ค๋ก ์ฐ๊ฒฐ๋์ด ๊ฐ์ ๋ฐฉํฅ์ผ๋ก๋ ๊ฐ๋ค
๐ 5 Experiments
๋ฒ์ญ
๋ณธ ์ ์์๋ Chronos-2๋ฅผ ์ธ ๊ฐ์ง ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ(5.1์ )์ ๋ํด ์ต์ฒจ๋จ ์ ๊ทผ๋ฒ๋ค๊ณผ ๋น๊ต ํ๊ฐํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค.
์ดํ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ทธ๋ฆฌ๊ณ ๊ณต๋ณ๋ ์ ๋ณด ๊ธฐ๋ฐ ์์ธก ํ์คํฌ์์ ์ธ์ปจํ
์คํธ ํ์ต(in-context learning, ICL)์ ํตํด ์ป์ ์ฑ๋ฅ ํฅ์์ ๋ถ์ํฉ๋๋ค(5.2์ ).
๋ค์์ผ๋ก, ๊ณต๋ณ๋์ด ์ ํํ ์์ธก์ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ ์๋์ง ๋ฐ ์๋งค ๋๋ฉ์ธ ํ์คํฌ์์ Chronos-2์ ์ฑ๋ฅ์ ์กฐ์ฌํฉ๋๋ค(5.3์ ).
๋ง์ง๋ง์ผ๋ก, ๋ ์์ ๋ชจ๋ธ, ํฉ์ฑ ๋ฐ์ดํฐ๋ก๋ง ํ์ต๋ ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ ์ฅ๊ธฐ ๋ฌธ๋งฅ ํ์ ํ์ต ์ด์ ๋ชจ๋ธ์ ํฌํจํ Chronos-2์ ๋ค์ํ ์ถ์ยท๋ณํ ๋ชจ๋ธ์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํฉ๋๋ค(5.4์ ).
๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ
ํ 3: fev-bench ๊ฒฐ๊ณผ
ํ๊ท ์น๋ฅ ๊ณผ ์คํฌ ์ ์๋ ์ค์ผ์ผ๋ง๋ ๋ถ์์ ์์ค(Scaled Quantile Loss, SQL) ์งํ๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณ์ฐ๋๋ฉฐ, ๋ ๊ฐ ๋ชจ๋ ํด์๋ก ์ฑ๋ฅ์ด ์ฐ์ํจ์ ์๋ฏธํฉ๋๋ค.
Chronos-2๋ ๋จ๋ณ๋, ๋ค๋ณ๋, ๊ณต๋ณ๋ ์ ๋ณด ๊ธฐ๋ฐ ์์ธก ํ์คํฌ๋ฅผ ๋ชจ๋ ํฌํจํ๋ fev-bench์์ ๊ธฐ์กด์ ๋ชจ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์๋นํ ์ฐจ์ด๋ก ๋ฅ๊ฐํฉ๋๋ค.
๊ธฐ๋ณธ ๊ฒฐ๊ณผ์ ํน์ ํ์คํฌ์ ๋ฐ์ดํฐ ๋์๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋์ฒด ์ ๋ต์ Shchur et al.(2025)์์ ๊ฐ์ ธ์์ผ๋ฉฐ, ์ถ๊ฐ ์์ธก ์งํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ถ๋ก์ ํ 7โ9์ ์ ์๋์ด ์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ 120M ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๊ธฐ๋ณธ Chronos-2 ๋ชจ๋ธ์ ๋ค์์ ์ธ ๊ฐ์ง ํฌ๊ด์ ์ธ ์์ธก ๋ฒค์น๋งํฌ์์ ํ๊ฐํ์ต๋๋ค.
- fev-bench (Shchur et al., 2025)
- GIFT-Eval (Aksu et al., 2024)
- Chronos Benchmark II (Ansari et al., 2024)
์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด, ๊ฐ ๋ฒค์น๋งํฌ์์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ ์ต์ฒจ๋จ ์๊ณ์ด ํ์ด๋ฐ์ด์
๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ต๋๋ค. ์ฌ๊ธฐ์๋ TiRex, TimesFM-2.5, Toto-1.0, Moirai-2.0, TabPFN-TS, COSMIC, Sundial, ๊ทธ๋ฆฌ๊ณ Chronos์ ์ต์ ๊ณต๊ฐ ๋ฒ์ ์ธ Chronos-Bolt๊ฐ ํฌํจ๋ฉ๋๋ค.
๋ํ ํต๊ณ์ ์์ธก ๋ฌธํ(Hyndman & Athanasopoulos, 2018)์ ๊ธฐ๋ฐํ AutoARIMA, AutoETS, AutoTheta ๋ฐ ์ด๋ค์ ์์๋ธ๋ ์ถ๊ฐ์ ์ธ ๊ธฐ์ค์ ์ผ๋ก ํฌํจํ์ต๋๋ค.
์ด์ ์ฐ๊ตฌ(Aksu et al., 2024; Ansari et al., 2024)์์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ํ๊ท ์ ์ผ๋ก ํ์คํฌ ํนํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์์ ํ์ธํ์๊ธฐ ๋๋ฌธ์, ๋ณธ ์ฐ๊ตฌ์์๋ Chronos-2๋ฅผ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค๊ณผ๋ง ๋น๊ตํ๊ณ ํ์คํฌ๋ณ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ๊ฐ์์ ์ ์ธํ์ต๋๋ค.
Shchur et al.(2025)์ ๋ฐ๋ผ, ๋ชจ๋ ๋ชจ๋ธ์ ๋ํด ํ๊ท ์น๋ฅ (W)๊ณผ ์คํฌ ์ ์(S)๋ฅผ ํจ๊ป ๋ณด๊ณ ํฉ๋๋ค.
์ด ์งํ๋ค์ ์ด์ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ํ๊ท ์์(R) ๋ฐ ๊ธฐํ ํ๊ท ์๋ ์ค์ฐจ(G)์ ์ํ์ ์ผ๋ก ๋๋ฑํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
- $R = 1 + (1 - W / 100)(N - 1)$
- $G = 1 - S / 100$
์ฌ๊ธฐ์ $N$์ ๋น๊ต๋ ๋ชจ๋ธ์ ์์
๋๋ค.
์น๋ฅ ์ ๋ชจ๋ธ์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์๋ ๋น๊ต์ ๋น์จ์ ์๋ฏธํ๋ฉฐ, ์คํฌ ์ ์๋ ๊ธฐ์ค ๋ชจ๋ธ(Seasonal Naive) ๋๋น ํ๊ท ๋ฐฑ๋ถ์จ ์ฑ๋ฅ ๊ฐ์ ์ ๋ํ๋
๋๋ค.
fev-bench
fev-bench๋ ๊ณต๋ณ๋์ ํฌํจํ 100๊ฐ์ ์์ธก ํ์คํฌ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ์ค์ ์๋๋ฆฌ์ค๋ฅผ ๊ฐ์ฅ ํฌ๊ด์ ์ผ๋ก ํฌ๊ดํ๋ ๋ฒค์น๋งํฌ์
๋๋ค.
์ด ๋ฐ์ดํฐ์
๋ค์ Chronos-2์ ํ์ต ๊ณผ์ ์์ ์ฌ์ฉ๋์ง ์์์ต๋๋ค.
ํ 3์ SQL ์งํ ๊ธฐ์ค์ fev-bench ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, Chronos-2๋ ์น๋ฅ ๊ณผ ์คํฌ ์ ์ ๋ชจ๋์์ ๊ธฐ์กด ์๊ณ์ด ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค.
๋ํ fev-bench๋ ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ์ง๋ฅผ ํ๊ฐํ ์ ์๋ ๋๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๊ทธ๋ฆผ 2์ ์ ์๋ 95% ์ ๋ขฐ๊ตฌ๊ฐ ๋ถ์ ๊ฒฐ๊ณผ๋ Chronos-2๊ฐ TiRex ๋ฐ TimesFM-2.5๋ฅผ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ์ฐจ์ด๋ก ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค.
GIFT-Eval
GIFT-Eval์ 55๊ฐ์ ๋ฐ์ดํฐ์
์์ ํ์๋ 97๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ณ ์ฃผํ ์๊ณ์ด๊ณผ ์ฅ๊ธฐ ์์ธก์ ์ค์ ์ ๋ก๋๋ค.
ํ 4์ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด Chronos-2๋ ๊ฐ์ค ๋ถ์์ ์์ค(WQL)๊ณผ ํ๊ท ์ ๋ ์ค์ผ์ผ ์ค์ฐจ(MASE) ๋ชจ๋์์ ์ด์ ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ์ ๋ฅ๊ฐํฉ๋๋ค.
์ฌ์ ํ์ต ์ฝํผ์ค๋ฅผ ๊ตฌ์ฑํ ๋ GIFT-Eval์ ํ
์คํธ ๊ตฌ๊ฐ๊ณผ ์ค๋ณต๋์ง ์๋๋ก ์ฃผ์ํ์ผ๋, ์ผ๋ถ ๋ฐ์ดํฐ์
์ ํ์ต ๊ตฌ๊ฐ๊ณผ๋ ๋ถ๋ถ์ ์ธ ์ค๋ณต์ด ์กด์ฌํฉ๋๋ค.
์๊ฒฉํ ์ ๋ก์ท ๊ฒฐ๊ณผ๋ 5.4์ ์์ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ํตํด ๋ถ์ํฉ๋๋ค.
Chronos Benchmark II
Chronos Benchmark II๋ 27๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ๊ท ์ ์ผ๋ก 300 ํ์์คํ
๋ฏธ๋ง์ ์งง์ ์ด๋ ฅ์ ํฌํจํฉ๋๋ค.
์ด ๋ฒค์น๋งํฌ์์๋ Chronos-2๋ WQL ๋ฐ MASE ๊ธฐ์ค์์ ๋ชจ๋ ๊ธฐ์กด ๋ชจ๋ธ์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํฉ๋๋ค(ํ 5 ์ฐธ์กฐ).
์ข ํฉํ๋ฉด, Chronos-2๋ ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ ์ ๋ฐ์์ ๋ชจ๋ ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, Chronos-Bolt ๋๋น ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ํคํ ์ฒ ๊ฐ์ ๊ณผ ํ์ต ์ ๋ต์ ํจ๊ณผ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค.
์ธ์ปจํ ์คํธ ํ์ต์ ํตํ ๊ฐ์
5.1์ ์ ๊ฒฐ๊ณผ๋ ์ ์ฒด ๊ต์ฐจ ํ์ต ๋ชจ๋์์ ICL์ด ํ์ฑํ๋ Chronos-2์ ์ฑ๋ฅ์
๋๋ค.
๋ณธ ์ ์์๋ ๋จ๋ณ๋ ์ถ๋ก ๋ชจ๋์ ๋น๊ตํ์ฌ ICL๋ก ์ธํ ์ฑ๋ฅ ํฅ์์ ๋ถ์ํฉ๋๋ค.
์ด๋ฅผ ์ํด fev-bench๋ฅผ ๋ค์์ ์ธ ๋ถ๋ถ์งํฉ์ผ๋ก ๋ถํ ํฉ๋๋ค.
- ๋จ๋ณ๋ ์๋ธ์ : ๋จ์ผ ๋์ ์๊ณ์ด, ๊ณต๋ณ๋ ์์ (32๊ฐ ํ์คํฌ)
- ๋ค๋ณ๋ ์๋ธ์ : ๋ค์ค ๋์, ๊ณต๋ณ๋ ์์ (26๊ฐ ํ์คํฌ)
- ๊ณต๋ณ๋ ์๋ธ์ : ํ๋ ์ด์์ ๊ณผ๊ฑฐ ๋๋ ์๋ ค์ง ๊ณต๋ณ๋ ํฌํจ (42๊ฐ ํ์คํฌ)
๋จ๋ณ๋ ๋ชจ๋์์๋ ๊ฐ ์๊ณ์ด์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ธกํ๋ฉฐ ๊ณต๋ณ๋์ ๋ฌด์๋ฉ๋๋ค.
๋จ๋ณ๋ ํ์คํฌ
๊ทธ๋ฆผ 3์์ ๋ณผ ์ ์๋ฏ์ด, ICL์ ๋จ๋ณ๋ ํ์คํฌ์์ ์คํฌ ์ ์๋ฅผ ํฅ์์ํต๋๋ค.
ํนํ ์งง์ ์ด๋ ฅ์ ํฌํจํ๋ ํ์คํฌ๊ฐ ๋ง์ Chronos Benchmark II์์ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ง๋๋ค. ์ด๋ ์ ํ๋ ๊ด์ธก ๊ตฌ๊ฐ์์๋ ๊ด๋ จ ์๊ณ์ด ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
๋ค๋ณ๋ ํ์คํฌ
fev-bench์ ๋ค๋ณ๋ ์๋ธ์
์์๋ ICL์ ์ด๋์ด ์๋์ ์ผ๋ก ์์ต๋๋ค.
ํฅ๋ฏธ๋กญ๊ฒ๋ ๋จ๋ณ๋ ๋ชจ๋์ Chronos-2๋ ๋ค์ดํฐ๋ธ ๋ค๋ณ๋ ๋ชจ๋ธ์ธ Toto-1.0๋ณด๋ค๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
์ด๋ Takens์ ์๋ฒ ๋ฉ ์ ๋ฆฌ(Takens, 2006)๊ฐ ์์ฌํ๋ฏ, ์ถฉ๋ถํ ๊ธด ๋จ๋ณ๋ ์ด๋ ฅ์ด ์์คํ
์ ์ฃผ์ ๋์ญํ์ ํฌ์ฐฉํ ์ ์๊ธฐ ๋๋ฌธ์ผ ์ ์์ต๋๋ค.
์ ์ฌํ ๊ด์ฐฐ์ Nie et al.(2023)์์๋ ๋ณด๊ณ ๋์์ต๋๋ค.
๊ณต๋ณ๋ ํฌํจ ํ์คํฌ
๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ๊ณต๋ณ๋์ ํฌํจํ๋ ํ์คํฌ์์ ๊ด์ฐฐ๋ฉ๋๋ค.
ICL์ ํตํด Chronos-2๋ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ฌ ๋จ๋ณ๋ ์ถ๋ก ๋๋น ํฐ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํฉ๋๋ค.
์ด ์๋ธ์
์์ ๋ ๋ฒ์งธ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ ๋ชจ๋ธ์ ๊ณต๋ณ๋์ ์ง์ํ๋ TabPFN-TS์
๋๋ค.
๋๋ฉ์ธ๋ณ ์ฌ๋ก ์ฐ๊ตฌ
์๋์ง ๋ฐ ์๋งค ๋๋ฉ์ธ์์ ๊ณต๋ณ๋์ ํฌํจํ๋ fev-bench ํ์คํฌ๋ฅผ ๋์์ผ๋ก ์ถ๊ฐ ๋ถ์์ ์ํํ์ต๋๋ค.
๊ฐ๊ฐ 16๊ฐ(์๋์ง)์ 17๊ฐ(์๋งค) ํ์คํฌ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ๊ธฐ์ค์ ์ผ๋ก TabPFN-TS์ TiRex๋ฅผ ์ ํํ์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก Chronos-2๋ ๋ชจ๋ ๊ฒฝ์ฐ์์ ๊ธฐ์ค์ ๋ชจ๋ธ์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ฉฐ, ๊ณต๋ณ๋ ํตํฉ์ด ์ค์ ์์ธก ์ฑ๋ฅ์ ๋งค์ฐ ์ค์ํจ์ ๋ณด์ฌ์ค๋๋ค.
๋ ์ผ ์๋์ง ๊ฐ๊ฒฉ ์์ธก ํ์คํฌ์ Rossmann ์๋งค ํ๋งค ์์ธก ํ์คํฌ ์ฌ๋ก ๋ถ์์์๋, ICL์ ๊ณต๋ณ๋์ ํ์ฉํด ์์ธก์ ์ ํ์ฑ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
Ablation Studies
๋ณธ ์ ์์๋ ๋ค์ํ ์ค๊ณ ์ ํ์ ์ํฅ์ ๋ถ์ํ๊ธฐ ์ํ ์ถ๊ฐ ์คํ์ ์ ์ํฉ๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ
28M ๋งค๊ฐ๋ณ์์ ์ํ ๋ชจ๋ธ์ ์ฑ๋ฅ ์ ํ๊ฐ ๋งค์ฐ ์ ํ์ ์ธ ๋ฐ๋ฉด, ์ถ๋ก ์๋๋ ์ฝ 2๋ฐฐ ํฅ์๋ฉ๋๋ค. ์ด๋ ์์์ด ์ ํ๋ ํ๊ฒฝ์ ์ ํฉํฉ๋๋ค.
ํฉ์ฑ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ
ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ Chronos-2-Synth๋ ์ค์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋ค์ ๋ฎ์ง๋ง, ์ฌ์ ํ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ ๋๋ค. ์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
๊ธด ๋ฌธ๋งฅ ํ์ ํ์ต
๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ 2,048์์ 8,192 ํ์์คํ ์ผ๋ก ํ์ฅํ ํ์ ํ์ต์ ์ฑ๋ฅ์ ์ ๋ฐ์ ์ผ๋ก ํฅ์์ํค๋ฉฐ, ํนํ ์ฅ์ฃผ๊ธฐ ๊ณ์ ์ฑ์ด ๊ฐํ ๊ณ ์ฃผํ ๋ฐ์ดํฐ์์ ํจ๊ณผ๊ฐ ํฝ๋๋ค.
๋ด์ฉ
ํ๊ท ์น๋ฅ , ์คํฌ ์ ์ : SQL๊ธฐ์ค์ผ๋ก ๊ณ์ฐ๋๋ฉฐ ๋ ๊ฐ ๋ชจ๋ ํด์๋ก ์ฑ๋ฅ์ด ์ฐ์ํจ
์ถ๊ฐ์์ธก์งํ์ ๋ํ ๊ฒฐ๊ณผ(๋ถ๋ก ํ 7~9)
120M ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๊ธฐ๋ณธ Chronos-2 ๋ชจ๋ธ๋ก ํ๊ฐ
- fev-bench (Shchur et al., 2025)
- GIFT-Eval (Aksu et al., 2024)
- Chronos Benchmark II (Ansari et al., 2024)
์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด, ๊ฐ ๋ฒค์น๋งํฌ์์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ ์ต์ฒจ๋จ ์๊ณ์ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต๋ฅผ ์งํ(TiRex, TimesFM-2.5, Toto-1.0, Moirai-2.0, TabPFN-TS, COSMIC, Sundial, Chronos์ ์ต์ ๊ณต๊ฐ ๋ฒ์ ์ธ Chronos-Bolt) ํต๊ณ๋ชจ๋ธ๋ค๋ AutoARIMA, AutoETS, AutoTheta ๋ฐ ์ด๋ค์ ์์๋ธ๋ ์ถ๊ฐ ์ด์ ํฌ๋ก๋ ธ์ค์์ ๋ค์ด์คํธ๋ฆผ task๋ ๋น์ทํ๊ฑฐ๋, ๋ ๋์ ๊ฒฝํฅ์ ๋ณด์๊ธฐ๋๋ฌธ์ ํด๋น ์์ ์ ์ ์ธํจ
fev-bench
๊ณต๋ณ๋์ ํฌํจํ 100๊ฐ์ ์์ธก task๋ก ๊ตฌ์ฑ, ์ค์ ์๋๋ฆฌ์ค๋ฅผ ๊ฐ์ฅ ํฌ๊ด์ ์ผ๋ก ํฌ๊ดํ๋ ๋ฒค์น๋งํฌ(ํ์ต๊ณผ์ ์์ ์ฌ์ฉ ์ํจ) ๋ชจ๋ ๋ชจ๋ธ์ ๋ํด์ Chronos2๊ฐ ๋ฅ๊ฐํจ
fev-bench๋ ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ์ง๋ฅผ ํ๊ฐํ ์ ์๋ ๋๊ตฌ๋ฅผ ์ ๊ณต ๊ทธ๋ฆผ 2์ ์ ์๋ 95% ์ ๋ขฐ๊ตฌ๊ฐ ๋ถ์ ๊ฒฐ๊ณผ๋ Chronos-2๊ฐ TiRex ๋ฐ TimesFM-2.5๋ฅผ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ์ฐจ์ด๋ก ๋ฅ๊ฐํจ
GIFT-Eval
GIFT-Eval์ 55๊ฐ์ ๋ฐ์ดํฐ์ ์์ ํ์๋ 97๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ณ ์ฃผํ ์๊ณ์ด๊ณผ ์ฅ๊ธฐ ์์ธก์ ์ค์ ์ด์ ๋ชจ๋ธ์ ๋ค ๋ฅ๊ฐํจ ๋ค๋ง ์ค๋ณต๋ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํจ(์ผ๋ถ, ์๊ฒฉํ ๊ฒฐ๊ณผ๋ 5.4. zeroshot์์ ๋ถ์)
Chronos Benchmark II
Chronos Benchmark II๋ 27๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ๊ท ์ ์ผ๋ก 300 ํ์์คํ ๋ฏธ๋ง์ ์งง์๊ฒ๋ ํฌํจ
์ธ์ปจํ ์คํธ ํ์ต์ ํตํ ๊ฐ์
ICL vs Full Cross Learning
ICL์ ๊ทธ๋ฃน ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์คํ๋๋ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ์๋ฏธํ๋ฉฐ, ์ ์ฒด ๊ต์ฐจ ํ์ต์ ์ด ๋ฅ๋ ฅ์ ๊ทน๋ํ์ํค๊ธฐ ์ํด ์ถ๋ก ์ ์ฌ์ฉํ๋ ํน์ ํ ๋ชจ๋์ด๋ค
Group IDํ ๋น ๋ฐฉ์
- ICL : ๊ด๋ จ ์๋ ๋ฐ์ดํฐ๋ผ๋ฆฌ๋ง ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ํ ๋น
- ๊ต์ฐจ : ๋ฐฐ์น ์์ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด ๋๋ฆฌํ ๊ทธ๋ฃน์ผ๋ก ํ ๋นํ๋ฉฐ ๋ฐ์ดํฐ์ ์ข ๋ฅ์ ์๊ด์ใ ์ด ์๋ก์ ์ ๋ณด๋ฅผ ๋ฌด์ฐจ๋ณ์ ์ผ๋ก ์ฐธ์กฐ
์ด๋ฅผ ์ํด fev-bench๋ฅผ ๋ค์์ ์ธ ๋ถ๋ถ์งํฉ์ผ๋ก ๋ถํ
- ๋จ๋ณ๋ ์๋ธ์
: ๋จ์ผ ๋์ ์๊ณ์ด, ๊ณต๋ณ๋ ์์ (32๊ฐ ํ์คํฌ)
- ๋จ๋ณ๋ ๋ชจ๋์์๋ ๊ฐ ์๊ณ์ด์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ธกํ๋ฉฐ ๊ณต๋ณ๋์ ๋ฌด์
- ๋ค๋ณ๋ ์๋ธ์ : ๋ค์ค ๋์, ๊ณต๋ณ๋ ์์ (26๊ฐ ํ์คํฌ)
- ๊ณต๋ณ๋ ์๋ธ์ : ํ๋ ์ด์์ ๊ณผ๊ฑฐ ๋๋ ์๋ ค์ง ๊ณต๋ณ๋ ํฌํจ (42๊ฐ ํ์คํฌ)
๋จ๋ณ๋ ํ์คํฌ
๊ทธ๋ฆผ 3์ ๋ณด๋ฉด(๊ฐ์ ์ ์ ๋์ ํ์), ICL์ ๋จ๋ณ๋์์ ์คํฌ ์ ์๋ฅผ ํฅ์์ํด ์งง์ ์๊ณ์ด์ธ Chronos Benchmakr2์์๋ ๊ฐ์ ์ด ๋ณด์ด๋ฉฐ, ์ด๋ ์๊ณ์ด์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ค๋ฉด ์์ธก์ ๊ฐ์ ํ ์ ์์์ ์๋ฏธ
๋ค๋ณ๋ ํ์คํฌ
๋ค๋ณ๋ ๋ฌธ์ ์ ๋ํด์๋ ICL์ ํจ๊ณผ๊ฐ ๋ฎ์ ํฅ๋ฏธ๋กญ๊ฒ๋ ๋จ๋ณ๋ ๋ชจ๋์ Chronos-2๋ ๋ค์ดํฐ๋ธ ๋ค๋ณ๋ ๋ชจ๋ธ์ธ Toto-1.0๋ณด๋ค๋ ์ฐ์ํ ์ฑ๋ฅ ์ด๋ Takens์ ์๋ฒ ๋ฉ ์ ๋ฆฌ(Takens, 2006)๊ฐ ์์ฌํ๋ฏ, ์ถฉ๋ถํ ๊ธด ๋จ๋ณ๋ ์ด๋ ฅ์ด ์์คํ ์ ์ฃผ์ ๋์ญํ์ ํฌ์ฐฉํ ์ ์๊ธฐ ๋๋ฌธ ์ ์ฌํ ๊ด์ฐฐ์ Nie et al.(2023)์์๋ ๋ณด๊ณ ๋จ
๊ณต๋ณ๋ ํฌํจ ํ์คํฌ
๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ๊ณต๋ณ๋์ ํฌํจํ๋ ํ์คํฌ์์ ๊ด์ฐฐ๋จ ICL์ ํตํด Chronos-2๋ ๊ณต๋ณ๋ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ฌ ๋จ๋ณ๋ ์ถ๋ก ๋๋น ํฐ ์ฑ๋ฅ ๊ฐ์ ์ ํ์ธํจ
๋๋ฉ์ธ๋ณ ์ฌ๋ก ์ฐ๊ตฌ
์๋์ง ๋ฐ ์๋งค ๋๋ฉ์ธ์์ ๊ณต๋ณ๋์ ํฌํจํ๋ fev-bench ํ์คํฌ๋ฅผ ๋์์ผ๋ก ์ถ๊ฐ ๋ถ์์ ์ํ ๊ฐ๊ฐ 16๊ฐ(์๋์ง)์ 17๊ฐ(์๋งค) ํ์คํฌ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ๊ธฐ์ค์ ์ผ๋ก TabPFN-TS์ TiRex๋ฅผ ์ ํ
๋ ์ผ ์๋์ง ๊ฐ๊ฒฉ ์์ธก ํ์คํฌ์ Rossmann ์๋งค ํ๋งค ์์ธก ํ์คํฌ ์ฌ๋ก ๋ถ์์์๋, ICL์ ๊ณต๋ณ๋์ ํ์ฉํด ์์ธก์ ์ ํ์ฑ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํฅ์
Abalation Study
๋ชจ๋ธ ํฌ๊ธฐ
28M ๋งค๊ฐ๋ณ์์ ์ํ ๋ชจ๋ธ์ ์ฑ๋ฅ ์ ํ๊ฐ ๋งค์ฐ ์ ํ์ ์ธ ๋ฐ๋ฉด, ์ถ๋ก ์๋๋ ์ฝ 2๋ฐฐ ํฅ์ ์ด๋ ์์์ด ์ ํ๋ ํ๊ฒฝ์ ์ ํฉ
ํฉ์ฑ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ
ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ Chronos-2-Synth๋ ์ค์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋ค์ ๋ฎ์ง๋ง, ์ฌ์ ํ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ ์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๊ฐ์กฐ
๊ธด ๋ฌธ๋งฅ ํ์ ํ์ต
๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ 2,048์์ 8,192 ํ์์คํ ์ผ๋ก ํ์ฅํ ํ์ ํ์ต์ ์ฑ๋ฅ์ ์ ๋ฐ์ ์ผ๋ก ํฅ์์ํค๋ฉฐ, ํนํ ์ฅ์ฃผ๊ธฐ ๊ณ์ ์ฑ์ด ๊ฐํ ๊ณ ์ฃผํ ๋ฐ์ดํฐ์์ ํจ๊ณผ์
ํฌ์ธํธ
ํ๊ท ์น๋ฅ ํน์ ๋ชจ๋ธ์ด ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ์ 1:1๋น๊ต์์ ์ผ๋ง๋ ์์ฃผ ์ด๊ธฐ๋์ง๋ฅผ ์ธก์ N๊ฐ์ ๋ชจ๋ธ์ด ์์๋, ๊ฐ ๋ฐ์ดํฐ์ (task)๋ง๋ค ๋ชจ๋ธ A์ B์ ์์ธก ์ค์ฐจ(Loss by SQL)์ ๋น๊ตํ์ฌ ๋ ๋ฎ์ ์ค์ฐจ๋ฅผ ๊ธฐ๋กํ ๋ชจ๋ธ์ด ์น์๋ก ํ๋จ. ์ดํ ๋ชจ๋ธ A๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์๋๋ก ๊ฑฐ๋ ์น๋ฆฌ ๋น์จ์ ๊ณ์ผํ๊ณ , ์ด๋ฅผ ์ ์ฒด ํ์คํฌ์ ๋ํด ํ๊ท $$
R = 1 + \left(1 - \frac{W}{100}\right)(N - 1)
$$
- $W$: ํ๊ท ์น๋ฅ (Avg. Win Rate)
- $N$: ๋น๊ต ๋์ ๋ชจ๋ธ์ ์ด ๊ฐ์
- $R$: ๋ชจ๋ธ์ ํ๊ท ์์ (Average Rank) ์น๋ฅ 100%์ ๊ฐ๊น์ธ์๋ก, ํด๋น ๋ชจ๋ธ์ด ๊ฑฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ์ด๊ธด๋ค๋ ์๋ฏธ
์คํฌ ์ ์ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ์ด ์ผ๋ง๋ ๊ฐ์ ๋์๋์ง ๋ฐฑ๋ถ์จ๋ก ๋ํ๋ด๋์งํ ๋ฒ ์ด์ค๋ผ์ธ : Seasonal Naive ํ๊ฐ ๋ชจ๋ธ๊ณผ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ์์ธก ์ค์ฐจ๋ฅผ ๋น๊ต, ์ค์ฐจ๊ฐ ์ผ๋ง๋ ๊ฐ์ํ๋์ง๋ฅผ ์ธก์
$$
S = \left(1 - \frac{Loss_{\text{model}}}{Loss_{\text{base}}}\right) \times 100
$$
- $S$: ์คํฌ ์ ์ (Skill Score)
- $Loss_{\text{model}}$: ํ๊ฐ ๋์ ๋ชจ๋ธ์ SQL(Scaled Quantile Loss)
- $Loss_{\text{base}}$: Seasonal Naive ๋ชจ๋ธ์ SQL
์๋ฏธ- $S = 0$: Seasonal Naive์ ์ฑ๋ฅ์ด ๋์ผํจ
- $S > 0$: ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํจ
- e.g. : $S = 47.3$์ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์์ธก ์ค์ฐจ๋ฅผ ์ฝ 47% ๊ฐ์์์ผฐ์์ ์๋ฏธ
- $S < 0$: ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ด๋ฑํจ
๋์ฒด ์ ๋ต (Imputation Strategy) ์๊ณ์ด ์์ธก ๋ฒค์น๋งํฌ(fev-bench)์์ ๋ฏธ๋์ ์ ๋ณด๊ฐ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํฌํจ๋์ด ์ฑ๋ฅ์ด ์๊ณก๋๋ ๋ฐ์ดํฐ ๋์(Data Leakage) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ท์ฝ
ํต์ฌ ์๋ฆฌ ๋ชจ๋ ๋ณ์๋ฅผ โ๋ฏธ๋๋ฅผ ์๋ ์ ๋ณดโ์ โ๋ชจ๋ฅด๋ ์ ๋ณดโ๋ก ์๊ฒฉํ ๋ถ๋ฅํ์ฌ, ์ ์ ์๋ ์ ๋ณด๋ ๋ฏธ๋ ์์ ์์ ๊ฐ์ ๋ก ์ ๊ฑฐ(๋ง์คํน)
์ธ๋ถ ๋ฐฉ๋ฒ
- ๋ณ์ ๋ถ๋ฅ:
- ์๋ ค์ง ๊ณต๋ณ๋(Known Covariates): ํด์ผ, ํ๋ก๋ชจ์ ๋ฑ ๋ฏธ๋ ๊ฐ์ ๊ทธ๋๋ก ์ ์ง
- ํ๊ฒ ๋ฐ ๊ณผ๊ฑฐ ์ ์ฉ ๊ณต๋ณ๋(Past-only Covariates): ๋ฏธ๋ ์์ ์ ๊ฐ์ ๋ชจ๋ ๊ฒฐ์ธก์น(Missing Values, *)๋ก ์ค์
- ๋ง์คํน ๋ฐ ๋์ฒด:
- ์ด์ง ๋ง์คํฌ(): ๊ฐ์ด ๊ด์ธก๋ ์ง์ ์ 1, ๊ฒฐ์ธก์น๋ ์์ธก ๋์ ์ง์ ์ 0์ผ๋ก ํ์ํ๋ ์งํ๋ฅผ ์์ฑ
- 0์ผ๋ก ๋์ฒด: ๋ง์คํฌ๋ฅผ ์์ฑํ ํ, ๊ฒฐ์ธก์น๋ก ํ์๋ ๋ชจ๋ ๋ฏธ๋ ๊ฐ์ ๋ชจ๋ธ ์ ๋ ฅ ์ 0์ผ๋ก ๋์ฒด
์๋ฏธ
- ๋์ ์ฐจ๋จ: ๋ชจ๋ธ์ด ๋ฏธ๋์ ํ๊ฒ ์ ๋ณด๋ฅผ ๋ฏธ๋ฆฌ ๋ณด๊ณ ์์ธกํ๋ โ์ปค๋โ์ ์์ฒ์ ์ผ๋ก ๋ฐฉ์ง
- ๊ณต์ ํ ๋น๊ต: ๋ชจ๋ ๋ชจ๋ธ์ด ๋์ผํ๊ฒ ์ ํ๋ ์ ๋ณด(๋ง์คํน๋ ๋ฐ์ดํฐ)๋ง์ ์ฌ์ฉํ์ฌ ์์ธกํ๊ฒ ํจ์ผ๋ก์จ ์ง์ ํ ์ ๋ก์ท ์์ธก ์ฑ๋ฅ์ ์ธก์


















