ํด๋ฆฝ๋ณด๋“œ์— ๋ณต์‚ฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค
Post

Chronos-2 From Univariate to Universal Forecasting

Chronos-2 From Univariate to Universal Forecasting

๐Ÿ”— ์ถœ์ฒ˜

https://arxiv.org/abs/2510.15821


๐Ÿ—“๏ธ ์š”์•ฝ

๐Ÿ“Œ 3์ค„ ์š”์•ฝ

  1. ๊ธฐ์กด Pretrained๋ชจ๋ธ์˜ Univariate forecastingํ•œ๊ณ„๋ฅผ ๋„˜์–ด, multivariate ๋ฐ covariate-informed forecasting task๋ฅผ zero-shot๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฒ”์šฉ ๋ชจ๋ธ
  2. group attention mechanism์„ ํ†ตํ•ด in-context learning(ICL)์„ ๊ตฌํ˜„ํ•ด ๊ด€๋ จ TS๊ฐ„ ํšจ์œจ์ ์ธ ์ •๋ณด ๊ณต์œ ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ์ฃผ๋กœ synthetic datasets๋ฅผ ํ†ตํ•ด ํ•™์Šต
  3. ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, covariate-informed task์—์„œ ๊ธฐ์กด chronos ๋ณด๋‹ค ํฐ ํญ์˜ ๊ฐœ์„ ์„ ๋ณด์—ฌ์คŒ

๐Ÿ“์š”์•ฝ

๊ธฐ์กด Chronos๊ฐ€ ๊ฐ€์กŒ๋˜ ๋‹จ๋ณ€๋Ÿ‰(Univariate) ์˜ˆ์ธก์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ๋‹ค๋ณ€๋Ÿ‰(Multivariate), ๊ณต๋ณ€๋Ÿ‰(Covariate)์ •๋ณด๋ฅผ zero-shot์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง„ํ™”ํ•œ foundation๋ชจ๋ธ

1. ์ „์ฒ˜๋ฆฌ ๋ฐ ํ† ํฐํ™” : ์ˆ˜์น˜์  ์•ˆ์ •์„ฑ๊ณผ ๊ตฌ์กฐํ™”

๋‹จ์ˆœํžˆ ์ˆซ์ž๋ฅผ ๋‚˜์—ดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์‹œ๊ณ„์—ด์˜ ๊ตฌ์กฐ์  ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•˜๊ธฐ ์‰ฌ์šด ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š”๋ฐ ์ง‘์ค‘

1.1. Robust Scailing($sinh^{-1}$)

\(\tilde{v}_{t,d} = \text{sinh}^{-1}\left(\frac{v_{t,d} - \mu_d}{\sigma_d}\right)\) ๊ธฐ์กด์˜ ํ‘œ์ค€ํ™”(standardization)๋Š” ์ด์ƒ์น˜์— ์ทจ์•ฝํ•จ. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์•„ํฌ์‚ฌ์ธ ๋ณ€ํ™˜์„ ๋„์ž…ํ•˜์˜€์Œ. ์ด ํ•จ์ˆ˜๋Š” ์›์  ๊ทผ์ฒ˜์—์„œ ์„ ํ˜•์ ์œผ๋กœ ์ž‘๋™ํ•˜๊ณ , ๊ฐ’์ด ์ปค์งˆ์ˆ˜๋ก ๋กœ๊ทธํ•จ์ˆ˜์ฒ˜๋Ÿผ ์ž‘๋™ํ•˜์—ฌ ๋ถ„์‚ฐ์„ ์•ˆ์ •ํ™”ํ•˜๊ณ  ์ด์ƒ์น˜์˜ ์˜ํ–ฅ์„ ์–ต์ œํ•œ๋‹ค

1.2. Pathcing

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ ์ ์”ฉ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€์‹ , ํŒจ์น˜๋กœ ๋ฌถ์–ด ์ฒ˜๋ฆฌํ•จ. ๊ณ„์‚ฐ ๋ณต์žก๋„๋กค ๋‚ฎ์ถ”๊ณ , Local Shape๋ฅผ ๋” ์ž˜ ํŒŒ์•…ํ•˜๋„๋ก ํ•ด์คŒ

2. ์•„ํ‚คํ…์ฒ˜

ํ•ต์‹ฌ์ ์ธ ๋ถ€๋ถ„์€ Dual Attention๊ตฌ์กฐ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ๊ณ„์—ด ๋‚ด์˜ ์‹œ๊ฐ„์  ํ๋ฆ„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์„œ๋กœ ๋‹ค๋ฅธ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๊นŒ์ง€ ํ•™์Šต

2.1. Time Attention (์‹œ๊ฐ„์ถ• ์ •๋ณด ์ง‘๊ณ„)

๊ธฐ์กด ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๋™์ผํ•œ ์‹œ๊ณ„์—ด ๋‚ด์—์„œ ๊ณผ๊ฑฐ ํŒจ์น˜๋“ค์ด ๋ฏธ๋ž˜ ์˜ˆ์ธก์— ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด๋•Œ RoPE(Rotary Position Embeddings)์„ ํ™œ์šฉํ•˜์—ฌ ์œ„์น˜ ์ •๋ณด๋ฅผ ํšŒ์ „ ํ–‰๋ ฌ๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ์ƒ๋Œ€์  ๊ฑฐ๋ฆฌ๋ฅผ ๋ณด์กดํ•จ์œผ๋กœ์„œ ์‹œ๊ฐ„์ˆœ์„œ๋ฅผ ํŒŒ์•…ํ•œ๋‹ค.

2.2. Group Attention (๋ณ€์ˆ˜ ๊ฐ„ ์ •๋ณด ์ง‘๊ณ„)

๋‹ค๋ณ€๋Ÿ‰๊ณผ ๊ณต๋ณ€๋Ÿ‰์„ ์ฒ˜๋ฆฌํ•˜๋Š” ํ•ต์‹ฌ

  • In-Context Learning(ICL) : ์—ฌ๋Ÿฌ ์‹œ๊ณ„์—ด์„ ํ•˜๋‚˜์˜ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด ๋ฐฐ์น˜์— ๋„ฃ์œผ๋ฉด, ๋ชจ๋ธ์€ ๊ทธ๋ฃน ๋‚ด ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด๋กœ๋ถ€ํ„ฐ ํžŒํŠธ๋ฅผ ์–ป์Œ(๊ณต๋ณ€๋Ÿ‰ ํ˜น์€ ๋‹ค๋ณ€๋Ÿ‰์œผ๋กœ๋ถ€ํ„ฐ)
  • e.g. โ€œ๊ธฐ์˜จโ€์„ ์˜ˆ์ธกํ• ๋•Œ โ€œ์Šต๋„โ€์™€ โ€œ์ผ์‚ฌ๋Ÿ‰โ€์„ ๊ฐ™์€ ๊ทธ๋ฃน ID๋กœ ๋ฌถ์–ด์ฃผ๋ฉด, ๋ชจ๋ธ์€ ์ด๋“ค ์‚ฌ์ด์˜ Dynamic์„ ์ฐธ์กฐํ•˜์—ฌ ๋” ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰
  • ์ธ๋ฐ˜์ ์ธ ํŠธ๋žœ์Šคํฌ๋จธ์˜ Time Attention์ด ํ•˜๋‚˜์˜ ์‹œ๊ณ„์—ด ์•ˆ์—์„œ โ€œ์–ด์ œ์™€ ์˜ค๋Š˜โ€์˜ ๊ด€๊ณ„๋ฅผ ๋ณธ๋‹ค๋ฉด, Group Attntion์€ ๊ฐ™์€ ์‹œ๊ฐ„๋Œ€์— ์กด์žฌํ•˜๋Š” โ€œ๋ณ€์ˆ˜ A์™€ ๋ณ€์ˆ˜ Bโ€์˜ ๊ด€๊ณ„๋ฅผ ๋ด„. ์ฆ‰, ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์ธ ์„œ๋กœ ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค๋ผ๋ฆฌ ์–ดํ…์…˜์„ ์ˆ˜ํ–‰
    • ์ž…๋ ฅ ์‹œ๊ณ„์—ด๋“ค์— Group ID๋ฅผ ๋ถ€์—ฌ : e.g. ๋ชฉํ‘œ ์ฃผ๊ฐ€, ๊ฑฐ๋ž˜๋Ÿ‰, ๊ธˆ๋ฆฌ ๋“ฑ์„ ๊ฐ™์€ ID๋กœ ๋ถ€์—ฌ
    • ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ(๋ณ€์ˆ˜์‚ฌ์ด์—๋Š” ์ˆœ์„œ๊ฐ€ ์—†์Œ)

3. ํ™•๋ฅ ๋ก ์  ์˜ˆ์ธก : Quantile Head

์ ์˜ˆ์ธก์„ ํ•˜์ง€ ์•Š๊ณ , 21๊ฐœ์˜ ๋ถ„์œ„์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ๊ฐ’์˜ ๋ถ„ํฌ๋ฅผ ์ œ์‹œ

3.1. Quantile Regression Loss

\(\sum_{q \in Q} \text{check\_loss}(z - \hat{z}_q)\) check_loss๋Š” ์˜ˆ์ธก์ด ์‹ค์ œ๋ณด๋‹ค ๋†’๊ฑฐ๋‚˜ ๋‚ฎ์„ ๋•Œ ๋น„๋Œ€์นญ์ ์ธ ํŽ˜๋„ํ‹ฐ๋ฅผ ์ฃผ๋Š” ํ•จ์ˆ˜ ์ด๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ๋น„์ฆˆ๋‹ˆ์Šค ์˜์‚ฌ๊ฒฐ์ •์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ

4. ์ „๋žต : ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ

์‹ค์ œ๋กœ ์ œ๊ณต๋œ ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ ๊ธฐ๋•Œ๋ฌธ์—, Multivariatizers๋ผ๋Š” ํ†ต๊ณ„์  ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉ

  • ์ƒ๊ด€๊ด€๊ณ„ ์ฃผ์ž… : ๋…๋ฆฝ์ ์ธ ๋‹จ๋ณ‘๋Ÿ‰ ๋ฐ์ดํ„ฐ๋“ค์„ ์ƒ์„ฑํ•œ ํ›„, ์„ ํ˜•/๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ํ†ตํ•ด ๊ฐ•์ œ๋กœ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋งŒ๋“ฆ
  • ์‹œ์ฐจ ํšจ๊ณผ(Lead-Lag) : ํ•œ ์‹œ๊ณ„์—ด์ด ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด๋ณด๋‹ค ์กฐ๊ธˆ ๋Šฆ๊ฒŒ ์›€์ง์ด๋Š” ํŒจํ„ด ๋“ฑ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ, ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋„๋ก ํ•จ

Chronos vs Chronos-2

| ๋น„๊ต ํ•ญ๋ชฉ | Chronos (v1) | Chronos-2 | | โ€”โ€”โ€”โ€”- | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€“ | โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€”โ€” | | ๋ชจ๋ธ ๊ตฌ์กฐ | T5 (Encoderโ€“Decoder) / GPT-2 | T5 Encoder-Only (์ธ์ฝ”๋”๋งŒ ์‚ฌ์šฉ) | | ๊ธฐ๋ณธ ๋‹จ์œ„ | ํ† ํฐ (Token, ๊ฐœ๋ณ„ ์ˆ˜์น˜ ํ•˜๋‚˜) | ํŒจ์น˜ (Patch, ์—ฌ๋Ÿฌ ์ˆ˜์น˜์˜ ๋ฌถ์Œ) | | ์ „์ฒ˜๋ฆฌ | Mean Scaling & Binning (๊ตฌ๊ฐ„ ๋‚˜๋ˆ„๊ธฐ) | $\sinh^{-1}$ Scaling (์•„ํฌ์‚ฌ์ธ ๋ณ€ํ™˜) | | ์ถœ๋ ฅ ํ˜•ํƒœ | ๋ฒ”์ฃผํ˜• ๋ถ„ํฌ (Categorical Distribution) | ๋ถ„์œ„์ˆ˜ ์˜ˆ์ธก (Quantile Regression) | | ์ง€์› ๋ฒ”์œ„ | ๋‹จ๋ณ€๋Ÿ‰(Univariate) ์ „์šฉ | ๋‹จ๋ณ€๋Ÿ‰ ยท ๋‹ค๋ณ€๋Ÿ‰ ยท ๊ณต๋ณ€๋Ÿ‰ (Zero-shot) | | ์œ„์น˜ ์ •๋ณด | Absolute / Relative Bias | RoPE (Rotary Position Embedding) | | ํ•ต์‹ฌ ๊ธฐ์ž‘ | ๋‹จ์ˆœ ์ž๊ธฐํšŒ๊ท€ (Autoregressive) | Group Attention (ICL์˜ ํ•ต์‹ฌ) |


๐Ÿ“š ์ •๋ฆฌ

๐Ÿ“Œ ์ œ๋ชฉ

Chronos-2: From Univariate to Universal Forecasting



๐ŸŒŸ ์ดˆ๋ก

๋ฒˆ์—ญ

์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์€ ์ž‘์—…๋ณ„ ํ•™์Šต ์—†์ด ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๋Š” ์ถ”๋ก  ์ „์šฉ ์˜ˆ์ธก ์‹œ์Šคํ…œ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ฃผ๋กœ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์— ์ดˆ์ ์„ ๋งž์ถฐ, ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ์ดํ„ฐ์™€ ๊ณต๋ณ€๋Ÿ‰์ด ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ œ๋กœ์ƒท(zero-shot) ๋ฐฉ์‹์œผ๋กœ ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ์ธ Chronos-2๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. Chronos-2๋Š” ๊ทธ๋ฃน ๋‚ด์—์„œ ๊ด€๋ จ ์‹œ๊ณ„์—ด ์ง‘ํ•ฉ, ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ๋ณ€๋Ÿ‰, ๋˜๋Š” ์˜ˆ์ธก ๋Œ€์ƒ๊ณผ ๊ณต๋ณ€๋Ÿ‰์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ๊ทธ๋ฃน ๋‚ด์—์„œ ๋‹ค์ค‘ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ํšจ์œจ์ ์ธ ์ •๋ณด ๊ณต์œ ๋ฅผ ํ†ตํ•ด ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(ICL, in-context learning)์„ ์ด‰์ง„ํ•˜๋Š” ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ผ๋ฐ˜์ ์ธ ๊ธฐ๋Šฅ์€ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์— ๋‹ค์–‘ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ๋ถ€๊ณผํ•˜๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋‹ฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. Chronos-2๋Š” ์„ธ ๊ฐ€์ง€ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ์ธ fev-bench, GIFT-Eval, ๊ทธ๋ฆฌ๊ณ  Chronos Benchmark II์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์„ ๊ฐ•์กฐํ•˜๋Š” fev-bench์—์„œ Chronos-2์˜ ๋ณดํŽธ์ ์ธ ICL ๊ธฐ๋Šฅ์€ ๊ธฐ์กด ๋ชจ๋ธ์— ๋น„ํ•ด ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. ๊ณต๋ณ€๋Ÿ‰์ด ํฌํ•จ๋œ ์ž‘์—…์—์„œ๋Š” ๊ธฐ์กด ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์—๋„ˆ์ง€ ๋ฐ ์†Œ๋งค ๋ถ„์•ผ์˜ ์‚ฌ๋ก€ ์—ฐ๊ตฌ๋Š” ๊ทธ ์‹ค์งˆ์ ์ธ ์ด์ ์„ ๋”์šฑ ๋ถ€๊ฐํ•ฉ๋‹ˆ๋‹ค. Chronos-2์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ๊ธฐ๋Šฅ์€ ์ด๋ฅผ ์‹ค์ œ ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์—์„œ โ€œ๊ทธ๋Œ€๋กœโ€ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ์˜ˆ์ธก ๋ชจ๋ธ๋กœ ์ž๋ฆฌ๋งค๊น€ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ

๋‹จ๋ณ€๋Ÿ‰ โ†’ ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰์œผ๋กœ ํ™•์žฅ ๋‹ค์ค‘ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ํšจ์œจ์ ์ธ ์ •๋ณด ๊ณต์œ ๋ฅผ ํ†ตํ•œ ICL(in-context learning)์„ ์ด‰์ง„ํ•˜๋Š” Group Attention์„ ์‚ฌ์šฉ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์— ๋‹ค์–‘ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ๋ถ€๊ณผํ•˜๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉ


ํฌ์ธํŠธ

  • Group Attention : ๋‹ค์ค‘ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ํšจ์œจ์ ์ธ ์ •๋ณด ๊ณต์œ ๋ฅผ ํ†ตํ•œ ICL ์ด‰์ง„
  • ๋‹จ๋ณ€๋Ÿ‰ โ†’ ๋‹ค๋ณ€๋Ÿ‰ ํ•ฉ์„ฑ : ๋‹จ๋ณ€๋Ÿ‰์— ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ๋ถ€๊ณผ


๐Ÿ“Œ ์„œ๋ก  & ๊ฒฐ๋ก  & ๊ณ ์ฐฐ

๋ฒˆ์—ญ

์„œ๋ก 

์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ(๊ธฐ์ดˆ ๋ชจ๋ธ์ด๋ผ๊ณ ๋„ ํ•จ)์˜ ๋“ฑ์žฅ์€ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ถ„์•ผ์— ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ „ํ™˜์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. ๊ฐ ์‹œ๊ณ„์—ด(๋กœ์ปฌ ๋ชจ๋ธ, local models) (Hyndman & Athanasopoulos, 2018) ๋˜๋Š” ๊ฐ ๋ฐ์ดํ„ฐ์…‹(์ž‘์—…๋ณ„ ๋ชจ๋ธ, task-specific models) (Lim et al., 2021; Challu et al., 2023)์— ๋Œ€ํ•ด ๊ฐœ๋ณ„์ ์œผ๋กœ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€์‹ , ๋‹จ์ผ ๋ชจ๋ธ์„ ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋กœ ํ•œ ๋ฒˆ ํ•™์Šตํ•œ ๋’ค ๋‹ค์–‘ํ•œ ์˜ˆ์ธก ๋ฌธ์ œ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค (Ansari et al., 2024; Das et al., 2024b). ์ด๋Ÿฌํ•œ ์‚ฌ์ „ ํ›ˆ๋ จ ์ ‘๊ทผ๋ฒ•์€ ๊ฐ ์‚ฌ์šฉ ์‚ฌ๋ก€๋งˆ๋‹ค ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•  ํ•„์š”๋ฅผ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์„ ํฌ๊ฒŒ ๋‹จ์ˆœํ™”ํ•ฉ๋‹ˆ๋‹ค. ๋”์šฑ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€, ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ด ์ข…์ข… ์ž‘์—…๋ณ„ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ์ด๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์ž…๋‹ˆ๋‹ค (Aksu et al., 2024).

์ด๋Ÿฌํ•œ ๋ฐœ์ „์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋Š” ์—ฌ์ „ํžˆ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์—๋งŒ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์˜ˆ์ธก ์‹œ ๋‹จ์ผ ์‹œ๊ณ„์—ด์˜ ๊ณผ๊ฑฐ ๊ด€์ธก์น˜๋งŒ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์€ ์ค‘์š”ํ•œ ๋ฌธ์ œ์ด์ง€๋งŒ, ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์—์„œ ์š”๊ตฌ๋˜๋Š” ์˜ˆ์ธก ๊ณผ์ œ๋Š” ์ด๋ณด๋‹ค ํ›จ์”ฌ ๋ณต์žกํ•ฉ๋‹ˆ๋‹ค. ํ˜„์‹ค์ ์œผ๋กœ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‹œ๊ณ„์—ด์ด ํ•จ๊ป˜ ์ง„ํ™”ํ•˜๋Š” ์ƒํ™ฉ์—์„œ ์ด๋ฅผ ๋™์‹œ์— ์˜ˆ์ธกํ•ด์•ผ ํ•˜๋Š” ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก(multivariate forecasting) ๋ฌธ์ œ (Baล„bura et al., 2010; Cohen et al., 2025)๋‚˜, ์˜ˆ์ธก ๋Œ€์ƒ์ด ์™ธ๋ถ€ ์š”์ธ์— ์˜์กดํ•˜๋Š” ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก(covariate-informed forecasting) ๋ฌธ์ œ์— ์ง๋ฉดํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, CPU ์‚ฌ์šฉ๋Ÿ‰, ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋Ÿ‰, ์Šคํ† ๋ฆฌ์ง€ I/O์™€ ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ์ธํ”„๋ผ ์ง€ํ‘œ๋“ค์€ ์ƒํ˜ธ ์˜์กด์ ์œผ๋กœ ๋ณ€ํ™”ํ•˜๋ฉฐ ๊ณต๋™ ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ๋” ๋‚˜์€ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (Cohen et al., 2025). ๋˜ํ•œ ์†Œ๋งค ์ˆ˜์š”๋Š” ํ”„๋กœ๋ชจ์…˜ ํ™œ๋™์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›์œผ๋ฉฐ, ์—๋„ˆ์ง€ ์†Œ๋น„ ํŒจํ„ด์€ ๊ธฐ์ƒ ์กฐ๊ฑด์— ์˜ํ•ด ์ขŒ์šฐ๋ฉ๋‹ˆ๋‹ค (Petropoulos et al., 2022). ์ด์ฒ˜๋Ÿผ ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์„ ์ง€์›ํ•˜์ง€ ๋ชปํ•˜๋Š” ์ ์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ด ์‹ค์ œ ์šด์˜ ์‹œ์Šคํ…œ์— ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์ฑ„ํƒ๋˜๋Š” ๋ฐ ์žˆ์–ด ์ฃผ์š”ํ•œ ์žฅ์•  ์š”์ธ์œผ๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค.

๋‹ค๋ณ€๋Ÿ‰ ์ข…์†์„ฑ๊ณผ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ์˜ ๊ฐœ๋ฐœ์€ ๋‘ ๊ฐ€์ง€ ์ด์œ ๋กœ ์—ฌ์ „ํžˆ ์–ด๋ ค์šด ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ์˜ˆ์ธก ๋ฌธ์ œ์˜ ์ด์งˆ์„ฑ์œผ๋กœ ์ธํ•ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ์žฌ๊ณ ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์€ ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜์™€ ๊ทธ ์˜๋ฏธ๋ก ์  ํ•ด์„์ด ์ƒ์ดํ•˜๋ฉฐ, ์‚ฌ์ „์— ์•Œ๋ ค์ง€์ง€ ์•Š์€ ์ž‘์—…์—์„œ๋Š” ๋ณ€์ˆ˜ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ๊ตฌ์กฐ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ€์ •ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ๋งฅ๋ฝ๋งŒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋Ÿฌํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ์Šค์Šค๋กœ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋‹ค๋ณ€๋Ÿ‰ ์ข…์†์„ฑ๊ณผ ์œ ์˜๋ฏธํ•œ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์ž์ฒด๊ฐ€ ๋งค์šฐ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์„ ๋ชจ๋‘ ์ œ๋กœ์ƒท(zero-shot) ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ Chronos-2๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Chronos-2๋Š” ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(in-context learning, ICL)์„ ํ™œ์šฉํ•˜์—ฌ ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก์„ ์ง€์›ํ•˜๋ฉฐ, ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋งŒ ์ฃผ์–ด์ง€๋Š” ๊ฒฝ์šฐ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฏธ๋ž˜ ๊ฐ’์ด ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰, ์‹ค์ˆ˜๊ฐ’ ๋˜๋Š” ๋ฒ”์ฃผํ˜• ๊ณต๋ณ€๋Ÿ‰์„ ๋ชจ๋‘ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ–ฅ์ƒ๋œ ICL ๋Šฅ๋ ฅ์€ ๋ฐฐ์น˜ ๋‚ด์˜ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด๋“ค ๊ฐ„ ์ •๋ณด ๊ณต์œ ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ํฌ๋กœ์Šค ํ•™์Šต(cross learning)์„ ํ†ตํ•ด ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก ์„ฑ๋Šฅ ์—ญ์‹œ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

Chronos-2์˜ ICL ๊ธฐ๋Šฅ์˜ ํ•ต์‹ฌ์€ ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๊ด€๋ จ ์‹œ๊ณ„์—ด๋“ค์˜ ์ž„์˜์˜ ์ง‘ํ•ฉ, ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ๊ฐ ๋ณ€๋Ÿ‰, ํ˜น์€ ์˜ˆ์ธก ๋Œ€์ƒ๊ณผ ๊ณต๋ณ€๋Ÿ‰(๊ณผ๊ฑฐ ํ˜น์€ ๋ฏธ๋ž˜ ๊ฐ’์ด ์•Œ๋ ค์ง„ ๊ฒฝ์šฐ)์„ ํ•˜๋‚˜์˜ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด ๊ทธ๋ฃน ๋‚ด๋ถ€์—์„œ ์ •๋ณด ๊ตํ™˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ํƒ€๊ฒŸ๊ณผ ๊ณต๋ณ€๋Ÿ‰์„ ๋‹จ์ˆœํžˆ ์—ฐ๊ฒฐ(concatenation)ํ•˜์—ฌ ์ž…๋ ฅ ๋งฅ๋ฝ์„ ํ™•์žฅํ•˜๋Š” ๋Œ€์‹ , ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ ˆ์ด์–ด๋Š” ๋ฐฐ์น˜ ์ฐจ์›์„ ๊ฐ€๋กœ์งˆ๋Ÿฌ ๊ทธ๋ฃน ๋‹จ์œ„๋กœ ์ •๋ณด๋ฅผ ๊ณต์œ ํ•จ์œผ๋กœ์จ ๋ณ€๋Ÿ‰ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•˜๋”๋ผ๋„ ์šฐ์•„ํ•˜๊ฒŒ ํ™•์žฅ๋ฉ๋‹ˆ๋‹ค. Chronos-2์˜ ๋˜ ๋‹ค๋ฅธ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ํ•™์Šต ์ „๋žต์— ์žˆ์œผ๋ฉฐ, ICL ๊ธฐ๋Šฅ์„ ํ™œ์„ฑํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋งํ•œ ์‹œ๊ณ„์—ด์— ์ธ์œ„์ ์œผ๋กœ ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ๋ถ€์—ฌํ•œ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ† ํฐํ™” ๊ณผ์ •๊ณผ ๋ชจ๋ธ๋ง์„ ํฌํ•จํ•œ Chronos-2์˜ ์ „์ฒด ์ถ”๋ก  ํŒŒ์ดํ”„๋ผ์ธ์€ ๊ทธ๋ฆผ 1์— ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

fev-bench (Shchur et al., 2025), GIFT-Eval (Aksu et al., 2024), Chronos Benchmark II (Ansari et al., 2024)๋ฅผ ํฌํ•จํ•œ ํฌ๊ด„์ ์ธ ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜ ๊ฒฐ๊ณผ, Chronos-2๋Š” ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” fev-bench์—์„œ Chronos-2๋Š” ๋ชจ๋“  ๋ฒ”์ฃผ์—์„œ ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ•˜์˜€์œผ๋ฉฐ, ํŠนํžˆ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š” ๊ณผ์ œ์—์„œ ๊ฐ€์žฅ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ํ™œ์šฉ๋„๊ฐ€ ๋†’์€ ์„ค์ •์—์„œ Chronos-2์˜ ๊ฐ•์ ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  Chronos-2๋Š” ๋†’์€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉฐ, ๋‹จ์ผ ์ค‘๊ธ‰ GPU(NVIDIA A10G) ํ™˜๊ฒฝ์—์„œ ์ดˆ๋‹น ์•ฝ 300๊ฐœ์˜ ์‹œ๊ณ„์—ด์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. 2์žฅ์—์„œ๋Š” ์‹œ๊ณ„์—ด ์˜ˆ์ธก์˜ ๋ฐฐ๊ฒฝ๊ณผ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์„, ํŠนํžˆ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์ค‘์‹ฌ์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. 3์žฅ์—์„œ๋Š” Chronos-2์˜ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ๋ฐ ์ถ”๋ก  ํŒŒ์ดํ”„๋ผ์ธ์„ ์ƒ์„ธํžˆ ๋‹ค๋ฃน๋‹ˆ๋‹ค. 4์žฅ์—์„œ๋Š” ํ•™์Šต์— ์‚ฌ์šฉ๋œ ์ฝ”ํผ์Šค๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ, 5์žฅ์—์„œ๋Š” ์„ธ ๊ฐ€์ง€ ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ์™€ ํ•จ๊ป˜ ์—๋„ˆ์ง€ ๋ฐ ์†Œ๋งค ๋„๋ฉ”์ธ ์‚ฌ๋ก€ ์—ฐ๊ตฌ, ๊ทธ๋ฆฌ๊ณ  ablation ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ 6์žฅ์—์„œ๋Š” ๊ฒฐ๋ก ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.


๋…ผ์˜

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ์ž‘์—…์„ ํฌํ•จํ•˜์—ฌ ๊ด‘๋ฒ”์œ„ํ•œ ์˜ˆ์ธก ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ œ๋กœ์ƒท ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ์‚ฌ์ „ ํ•™์Šต ์‹œ๊ณ„์—ด ๋ชจ๋ธ์ธ Chronos-2๋ฅผ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์„ธ ๊ฐ€์ง€ ํฌ๊ด„์ ์ธ ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ ์ „๋ฐ˜์— ๊ฑธ์ณ Chronos-2๋Š” ๊ธฐ์กด์˜ ๊ธฐ์ดˆ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์ด ๋‹ค์–‘ํ•œ ์˜ˆ์ธก ์ž‘์—… ์œ ํ˜•์— ๊ฑธ์ณ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํŠนํžˆ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ์˜ˆ์ธก ์ž‘์—…์—์„œ ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” Chronos-2๊ฐ€ ๊ธฐ์กด ๊ธฐ์ดˆ ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ์ƒํšŒํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ์ง€๋‹Œ ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋‚ด๋Š” ๋™์‹œ์—, ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ์œ„ํ•ด ๊ณต๋ณ€๋Ÿ‰๊ณผ ๊ฐ™์€ ๋ฌธ๋งฅ ์ •๋ณด๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋Š” ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๋น„๋ก Chronos-2๋Š” ํ˜„์žฌ ์ˆซ์žํ˜• ๋ฐ ๋ฒ”์ฃผํ˜• ๊ณต๋ณ€๋Ÿ‰๋งŒ์„ ์ง€์›ํ•˜์ง€๋งŒ, ์‚ฌ์ „ ํ•™์Šต๋œ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์„ ํ™•์žฅํ•˜์—ฌ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์„ ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉํ–ฅ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ์œ ๋งํ•œ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค (Zhang et al., 2025).

๋˜ํ•œ ๋ณธ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ์žˆ์–ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์„ ๋‹ค์‹œ ํ•œ ๋ฒˆ ๋ถ€๊ฐํ•ฉ๋‹ˆ๋‹ค. Chronos-2๊ฐ€ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์„ ๋„˜์–ด์„œ๋Š” ๋Šฅ๋ ฅ์„ ํš๋“ํ•˜๋Š” ๋ฐ์—๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜๋ฉฐ, ์ œ๊ฑฐ ์‹คํ—˜ ๊ฒฐ๊ณผ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์กฐ์ฐจ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•™์Šตํ•œ ๋ชจ๋ธ์— ๋น„ํ•ด ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ œํ•œ์ ์ž„์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ํ–ฅํ›„ ์‚ฌ์ „ ํ•™์Šต ์‹œ๊ณ„์—ด ๋ชจ๋ธ์˜ ๋ฐœ์ „ ๊ณผ์ •์—์„œ ์ ์  ๋” ์ค‘์‹ฌ์ ์ธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, Chronos-2์˜ ์œ ์—ฐํ•œ ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ถ”๊ฐ€์ ์ธ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํฌ์†Œํ•œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋‚˜ ๋ฐ€์ง‘ ์ž„๋ฒ ๋”ฉ์„ ํ™œ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด์„ ๊ทธ๋ฃนํ™”ํ•จ์œผ๋กœ์จ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์˜ˆ์ธก(retrieval-augmented forecasting)์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ์ ์ธ ํ™˜๊ฒฝ์ด๋‚˜ ์ฝœ๋“œ ์Šคํƒ€ํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.



๋‚ด์šฉ

์„œ๋ก 

๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๋ชจ๋ธ : Chronos(Ansari et al., 2024; Das et al., 2024b)์„ ํ†ตํ•ด ์˜ˆ์ธก ํŒŒ์ดํ”„๋ผ์ธ์„ ํฌ๊ฒŒ ๋‹จ์ˆœํ™” ์‹œ์ผฐ๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ, pretrained model์ด ํŠนํ™” ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜, ๋” ๋‚˜์€ ๊ฒฝ์šฐ๋ฅผ ๋ณด์ด๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค.(GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation, Ansari et al., 2024; Das et al., 2024b)

๊ทธ๋Ÿฌ๋‚˜, ๋‹ค๋ถ€๋ถ„์˜ ๋ชจ๋ธ์€ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์—๋งŒ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ , ์˜ˆ์ธก ์‹œ ๋‹จ์ผ ์‹œ๊ณ„์—ด์˜ ๊ณผ๊ฑฐ ๊ด€์ธก์น˜๋งŒ ํ™œ์šฉํ•œ๋‹ค. ์ด๋Š” ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ์ ์ด์ง€ ์•Š๋‹ค. ์‹ค์ œ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์ง๋ฉดํ•˜๋Š” ๋ฌธ์ œ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

  • ๋‹ค๋ณ€๋Ÿ‰ ๋ฌธ์ œ : ์—ฌ๋Ÿฌ ์‹œ๊ณ„์—ด์„ ๋™์‹œ์— ์˜ˆ์ธก
  • ๊ณต๋ณ€๋Ÿ‰ ๋ฌธ์ œ : ์˜ˆ์ธก ๋Œ€์ƒ์ด ์™ธ๋ถ€ ์š”์ธ์— ์˜์กด e.g. ํด๋ผ์šฐ๋“œ ์ธํ”„๋ผ ์ง€ํ‘œ : CPU ์‚ฌ์šฉ๋Ÿ‰ + ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋Ÿ‰ + ์Šคํ† ๋ฆฌ์ง€ I/O etc. ์ฆ‰, ์ด๋ฅผ ๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋ธ์„ ์ฑ„ํƒํ•˜๋Š”๊ฒƒ์€ ์ฃผ์š”ํ•œ ์žฅ์•  ์š”์ธ์ด๋‹ค.

๋‹ค๋ณ€๋Ÿ‰ ๋ชจ๋ธ ์„ค๊ณ„์˜ ์–ด๋ ค์›€์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

  1. ์˜ˆ์ธก ๋ฌธ์ œ์˜ ์ด์งˆ์„ฑ : ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ์žฌ๊ณ ๊ฐ€ ํ•„์š” โ†’ ๊ฐœ๋ณ„ ๋‹ค์šด์ŠคํŠธ๋ฆผ task๋Š” ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜์™€ ๊ทธ ์˜๋ฏธ๋ก ์  ํ•ด์„์ด ์ƒ์ดํ•˜๊ฑฐ๋‚˜, ์‚ฌ์ „์— ์•Œ๋ ค์ง€์ง€ ์•Š์€ ์ž‘์—…์—์„œ๋Š” ๋ณ€์ˆ˜ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ๊ตฌ์กฐ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ€์ •ํ•  ์ˆ˜ ์—†๋‹ค.
  2. ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋‹ค : ๊ณ ํ’ˆ์งˆ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋‹ค.

Chronos-2๋Š” ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์„ ๋ชจ๋‘ zero-shot์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•˜์˜€๋‹ค.

  • ICL
    • ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก์„ ์ง€์›(๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋งŒ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ)
    • ๋ฏธ๋ž˜ ๊ฐ’์ด ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰, ์‹ค์ˆ˜ ํ˜น์€ ๋ฒ”์ฃผํ˜• ๊ณต๋ณ€๋Ÿ‰์„ ๋ชจ๋‘ ์ฒ˜๋ฆฌ
    • cross learning : ๋ฐฐ์น˜ ๋‚ด์˜ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด๋“ค ๊ฐ„ ์ •๋ณด๋ฅผ ๊ณต์œ ํ•˜์—ฌ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก ์„ฑ๋Šฅ ์—ญ์‹œ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.
    • Group Attention : ๊ด€๋ จ ์‹œ๊ณ„์—ด๋“ค์˜ ์ž„์˜์˜ ์ง‘ํ•ฉ, ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ๊ฐ ๋ณ€๋Ÿ‰, ์˜ˆ์ธก ๋Œ€์ƒ๊ณผ ๊ณต๋ณ€๋Ÿ‰(๊ณผ๊ฑฐ or ๋ฏธ๋ž˜์˜ ๊ฐ’์ด ์•Œ๋ ค์ง„ ๊ฒฝ์šฐ)๋ฅผ ํ•˜๋‚˜์˜ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด ๊ทธ๋ฃน ๋‚ด๋ถ€์—์„œ ์ •๋ณด ๊ตํ™˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค.
      • ํƒ€๊ฒŸ๊ณผ ๊ณต๋ณ€๋Ÿ‰์„ concatํ•˜๋Š” ๋Œ€์‹ , ๋ฐฐ์น˜ ์ฐจ์›์„ ๊ฐ€๋กœ์งˆ๋Ÿฌ ๊ทธ๋ฃน ๋‹จ์œ„๋กœ ์ •๋ณด๋ฅผ ๊ณต์œ ํ•˜์—ฌ ๋ณ€๋Ÿ‰ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•˜๋”๋ผ๋„ ํ™•์žฅ๊ฐ€๋Šฅํ•ด์ง
  • ํ•™์Šต ์ „๋žต
    • ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋งํ•œ ์‹œ๊ณ„์—ด โ†’ ์ธ์œ„์ ์ธ ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ๋ถ€์—ฌ

๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š” ๊ณผ์ œ์—์„œ ๊ฐ€์žฅ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ž„ ๋†’์€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ : ๋‹จ์ผ ์ค‘๊ธ‰ GPU(NVIDIA A10G) ํ™˜๊ฒฝ์—์„œ ์ดˆ๋‹น ์•ฝ 300๊ฐœ์˜ ์‹œ๊ณ„์—ด์„ ์ฒ˜๋ฆฌ


๋…ผ์˜

๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ์ž‘์—…์„ ํฌํ•จํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์˜ˆ์ธก ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ zero-shot์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” chronos-2๋ฅผ ๊ฐœ๋ฐœํ•˜์˜€์Œ

  • ICL์ด ๋‹ค์–‘ํ•œ ์˜ˆ์ธก ์ž‘์—… ์œ ํ˜•์— ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ด
  • ํŠนํžˆ, ๊ณต๋ณ€๋Ÿ‰ ๋ฌธ์ œ์—์„œ ํฌ๊ฒŒ ํšจ๊ณผ์ ์ด๋‹ค. ์ด๋Š” ๊ณต๋ณ€๋Ÿ‰๊ณผ ๊ฐ™์€ ๋ฌธ๋งฅ ์ •๋ณด๊ฐ€ ํ•ต์‹ฌ์ ์ธ ๊ธฐ๋Šฅ์„ ํ•œ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋น„๋ก chronos-2๋Š” ์ˆซ์ž ๋ฐ ๋ฒ”์ฃผํ˜• ๊ณต๋ณ€๋Ÿ‰๋งŒ ์ง€์›ํ•˜์ง€๋งŒ, ์ถ”ํ›„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ๋กœ๋„ ์—…๋ฐ์ดํŠธ ํ•  ์ˆ˜ ์žˆ์„๊ฒƒ์ด๋‹ค.

์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š”๋ฐ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชน์‹œ ์ค‘์š”ํ•˜๋‹ค. ์ด๋Š” chronos-2๊ฐ€ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์„ ๋„˜์–ด์„œ๋Š” ์˜ˆ์ธก์„ ํ•˜๊ฒŒ ํ•˜๋Š” ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์ด์—ˆ๊ณ , ์ด๋Š” ์ถ”ํ›„ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ํ–ฅํ›„ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์—์„œ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ• ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค.

Group Attention์„ ํ†ตํ•ด, ํฌ์†Œํ•œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋‚˜, ๋ฐ€์ง‘ํ•œ ์ž„๋ฒ ๋”ฉ์„ ํ™œ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด์„ ๊ทธ๋ฃนํ™” ์‹œํ‚ค๊ณ  RAG๋ฅผ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ์ ์ธ ์ƒํ™ฉ์—์„œ ์—์ธก ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š”๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค.



ํฌ์ธํŠธ

์„œ๋ก 

NOTE In-Context Learning ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜(Weight)๋ฅผ ์ƒˆ๋กœ ํ•™์Šต์‹œํ‚ค์ง€ ์•Š๊ณ ๋„, ์ž…๋ ฅ๊ฐ’(Context)์œผ๋กœ ์ฃผ์–ด์ง„ ์˜ˆ์‹œ๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ณ  ์ฆ‰์„์—์„œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ์‹์„ ๊นจ์šฐ์น˜๋Š” ๋Šฅ๋ ฅ์œผ๋กœ chronos-2์—์„œ๋Š”, ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™”์„๋•Œ ์ด ๋ฐ์ดํ„ฐ์˜ ๊ณผ๊ฑฐ ํŒจํ„ด์„ context๋กœ ์‚ผ์•„ ์˜ˆ์ธก ์ฆ‰, ๋ณ„๋„์˜ ํŠœ๋‹ ์—†์ด โ€œ๋ˆˆ์น˜๊ป ๋งž์ถ”๋Š”โ€๋Šฅ๋ ฅ

๋‹ค๋ณ€๋Ÿ‰ vs ๊ณต๋ณ€๋Ÿ‰

๊ตฌ๋ถ„๋‹ค๋ณ€๋Ÿ‰ (Multivariate)๊ณต๋ณ€๋Ÿ‰ (Covariate)
์˜ˆ์ธก ํƒ€๊ฒŸ ์ˆ˜์—ฌ๋Ÿฌ ๊ฐœํ•˜๋‚˜
๋ณ€์ˆ˜์˜ ์ง€์œ„๋ชจ๋‘ ์ฃผ์ธ๊ณตํƒ€๊ฒŸ 1๊ฐœ๋งŒ ์ฃผ์ธ๊ณต
๋‹ค๋ฅธ ๋ณ€์ˆ˜ ์—ญํ• ์„œ๋กœ ๊ฒฐ๊ณผ๋ณด์กฐ ์ •๋ณด
์˜ˆ์ธก ๋Œ€์ƒ ์—ฌ๋ถ€์ „๋ถ€ ์˜ˆ์ธกํƒ€๊ฒŸ๋งŒ ์˜ˆ์ธก
์‹ค๋ฌด ํ•ต์‹ฌ ์งˆ๋ฌธโ€œ์ด๊ฒƒ๋„ ๋งž์ถฐ์•ผ ํ•˜๋‚˜?โ€โ€œ์ด๊ฑด ํžŒํŠธ์ธ๊ฐ€?โ€

๋…ผ์˜

(์—†์Œ)



๐Ÿ”ฌ ์‹คํ—˜๊ณผ์ •

๋ฒˆ์—ญ

์‹œ๊ณ„์—ด ์˜ˆ์ธก์€ ๊ณผ๊ฑฐ ๊ด€์ธก๊ฐ’์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹œ๊ฐ„ ์ˆœ์„œ ๋ฐ์ดํ„ฐ์˜ ๋ฏธ๋ž˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
ํ˜•์‹์ ์œผ๋กœ,
$Y_{1:T} = [y_1, \dots, y_T]$๋Š” ๊ธธ์ด๊ฐ€ $T$์ธ ๊ณผ๊ฑฐ ์‹œ๊ณ„์—ด์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ฐ ๊ด€์ธก๊ฐ’ $y_t \in \mathbb{R}^D$๋Š” ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ๊ฒฝ์šฐ $D=1$, ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ๊ฒฝ์šฐ $D>1$์ž…๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ๊ณผ๊ฑฐ ๋งฅ๋ฝ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ์˜ˆ์ธก ํ˜ธ๋ผ์ด์ฆŒ $H$์— ๋Œ€ํ•ด ๋‹ค์Œ $H$๊ฐœ์˜ ์‹œ๊ฐ„ ๋‹จ๊ณ„ $Y_{T+1:T+H}$๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.

์˜ˆ์ธก ๊ณผ์ •์€ ๊ณต๋ณ€๋Ÿ‰(์™ธ์ƒ ๋ณ€์ˆ˜๋ผ๊ณ ๋„ ํ•จ)์— ์˜ํ•ด ์ง€์›๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ณต๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์€
$X_{1:T+H} = [x_1, \dots, x_{T+H}]$๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ๊ฐ $x_t \in \mathbb{R}^M$์€ ์ถ”๊ฐ€์ ์ธ ์ •๋ณด๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
์ด๋•Œ ๊ณต๋ณ€๋Ÿ‰์€ ๊ณผ๊ฑฐ ๊ตฌ๊ฐ„($t \le T$)๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฏธ๋ž˜ ๊ตฌ๊ฐ„($t > T$)์— ๋Œ€ํ•ด์„œ๋„ ์ œ๊ณต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ์˜ˆ์ธก ๋ฌธ์ œ๋Š” ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ๋‹จ์ผ ๊ฐ’์„ ์ถ”์ •ํ•˜๋Š” ํฌ์ธํŠธ ์˜ˆ์ธก(point forecasting)์œผ๋กœ ์ •์˜๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋˜๋Š” ์˜ˆ์ธก ๋ถˆํ™•์‹ค์„ฑ์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ํ™•๋ฅ ๋ก ์  ์˜ˆ์ธก(probabilistic forecasting)์œผ๋กœ๋„ ์ •์‹ํ™”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. \(P(Y_{T+1:T+H} \mid Y_{1:T}, X_{1:T+H})\)

์ œ๋กœ์ƒท ์˜ˆ์ธก(zero-shot forecasting)์€ ์ถ”๊ฐ€์ ์ธ ํ•™์Šต, ์ ์‘ ๋˜๋Š” ๋ฏธ์„ธ ์กฐ์ • ์—†์ด, ์ด์ „์— ๊ด€์ธก๋˜์ง€ ์•Š์€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ์ง์ ‘ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๋Š” ์„ค์ •์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ด์ „์˜ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฐฉ๋ฒ•๋ก ์€ ํฌ๊ฒŒ ๋กœ์ปฌ ๋ชจ๋ธ๊ณผ ๊ธ€๋กœ๋ฒŒ ๋ชจ๋ธ๋กœ ๊ตฌ๋ถ„๋ฉ๋‹ˆ๋‹ค.
๋กœ์ปฌ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด ๊ฐ ์‹œ๊ณ„์—ด๋งˆ๋‹ค ๊ฐœ๋ณ„์ ์ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ง‘ํ•ฉ์„ ํ•™์Šตํ•˜๋ฉฐ, ARIMA, ์ง€์ˆ˜ ํ‰ํ™œ๋ฒ•(Exponential Smoothing) (Hyndman & Athanasopoulos, 2018), Theta ๋ฐฉ๋ฒ• (Assimakopoulos & Nikolopoulos, 2000)๊ณผ ๊ฐ™์€ ๊ณ ์ „์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด ์ด์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ฉด ๊ธ€๋กœ๋ฒŒ ๋ชจ๋ธ์€ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์…‹ ๋‚ด ๋ชจ๋“  ์‹œ๊ณ„์—ด์— ๊ฑธ์ณ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณต์œ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์ง€๋‚œ 10์—ฌ ๋…„๊ฐ„ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ์ค‘์‹ฌ์œผ๋กœ ๋„๋ฆฌ ํ™œ์šฉ๋˜์–ด ์™”์Šต๋‹ˆ๋‹ค.

๋Œ€ํ‘œ์ ์ธ ๊ธ€๋กœ๋ฒŒ ๋ชจ๋ธ๋กœ๋Š” DeepState (Rangapuram et al., 2018), DeepAR (Salinas et al., 2020), TimeGrad (Rasul et al., 2021)์™€ ๊ฐ™์€ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋ชจ๋ธ, N-BEATS (Oreshkin et al., 2020) ๋ฐ N-HITS (Challu et al., 2023)์™€ ๊ฐ™์€ ์Šคํƒํ˜• ์•„ํ‚คํ…์ฒ˜, ๊ทธ๋ฆฌ๊ณ  TFT (Lim et al., 2021)์™€ PatchTST (Nie et al., 2023)์™€ ๊ฐ™์€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์ตœ๊ทผ์—๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์˜ˆ์ธก ๋ชจ๋ธ์ด ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ถ„์•ผ์—์„œ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ๋ถ€์ƒํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์—์„œ๋„ ์˜ˆ์ธก์„ ์œ„ํ•œ ์ „์ด ํ•™์Šต์˜ ์ œํ•œ์ ์ธ ๊ฐ€๋Šฅ์„ฑ์ด ๊ด€์ฐฐ๋˜์—ˆ์ง€๋งŒ (Orozco & Roberts, 2020; Oreshkin et al., 2021; Jin et al., 2022; Nie et al., 2023), ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์›์น™์„ ์ฑ„ํƒํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
์ดˆ๊ธฐ ์—ฐ๊ตฌ๋“ค์€ ์–ธ์–ด ๋ชจ๋ธ์„ ์‹œ๊ณ„์—ด ๋ฌธ์ œ์— ์ง์ ‘ ์ ์šฉํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์œผ๋‚˜ (Gruver et al., 2023; Jin et al., 2024), ์ตœ๊ทผ ์ ‘๊ทผ๋ฒ•๋“ค์€ ์ฃผ๋กœ LLM์˜ ์•„ํ‚คํ…์ฒ˜์  ์•„์ด๋””์–ด๋ฅผ ์ฐจ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ง์ ‘ ์‚ฌ์ „ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค (Das et al., 2024b; Garza et al., 2024; Ansari et al., 2024).

๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์ „ ํ•™์Šต๋œ ์˜ˆ์ธก ๋ชจ๋ธ์€ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์— ๊ตญํ•œ๋˜๋ฉฐ, ๋‹ค๋ณ€๋Ÿ‰ ์„ค์ •์—์„œ๋Š” ๊ฐ ์ฐจ์›์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ฑฐ๋‚˜ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ๋ฌด์‹œํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค (Rasul et al., 2023; Das et al., 2024b; Ansari et al., 2024; Liu et al., 2025; Auer et al., 2025b).
์˜ˆ์™ธ์ ์œผ๋กœ Moirai-1 (Woo et al., 2024)๊ณผ Toto (Cohen et al., 2025)๋Š” ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ์•„ํ‚คํ…์ฒ˜์— ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ Moirai-1์€ ๋‹ค๋ณ€๋Ÿ‰ ์ž…๋ ฅ์„ ๋‚ด๋ถ€์ ์œผ๋กœ ํ‰ํƒ„ํ™”ํ•˜์—ฌ ๊ณ ์ฐจ์› ํ™•์žฅ์„ฑ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, Toto๋Š” ๊ต์ฐจ ๋ณ€์ˆ˜ ์–ดํ…์…˜์„ ๋„์ž…ํ•˜์ง€๋งŒ ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰์ด๋‚˜ ๋ฒ”์ฃผํ˜• ๊ณต๋ณ€๋Ÿ‰์„ ์ง€์›ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
COSMIC (Auer et al., 2025a)์€ ํ•ฉ์„ฑ ์ฆ๊ฐ•์„ ํ†ตํ•ด ๊ณต๋ณ€๋Ÿ‰ ํ™œ์šฉ์„ ํ™•์žฅํ•˜์ง€๋งŒ ๋‹จ๋ณ€๋Ÿ‰ ํƒ€๊ฒŸ์—๋งŒ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ TabPFN-TS (Hoo et al., 2025)๋Š” ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰์„ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ๊ณผ๊ฑฐ ๊ณต๋ณ€๋Ÿ‰์ด๋‚˜ ๋‹ค๋ณ€๋Ÿ‰ ํƒ€๊ฒŸ์„ ๋ชจ๋ธ๋งํ•˜์ง€๋Š” ๋ชปํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์ด ์ œ์•ˆ๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ฒฝํ—˜์  ๋ถ„์„์— ๋”ฐ๋ฅด๋ฉด ๋Œ€๋ถ€๋ถ„์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋ธ ๋Œ€๋น„ ์ œํ•œ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ๋งŒ์„ ์ œ๊ณตํ•˜๋ฉฐ (ลปukowska et al., 2024; Auer et al., 2025a), ์ œ๋กœ์ƒท ์„ค์ •์—์„œ ๋‹ค๋ณ€๋Ÿ‰ ์ข…์†์„ฑ๊ณผ ๊ณต๋ณ€๋Ÿ‰์„ ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๋ฌธ์ œ๋Š” ์—ฌ์ „ํžˆ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก์„ ์œ„ํ•œ ๊ต์ฐจ ์–ดํ…์…˜ ์•„ํ‚คํ…์ฒ˜ (Zhang & Yan, 2023; Rao et al., 2021; Arnab et al., 2021)์™€ ์—ฌ๋Ÿฌ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ๊ต์ฐจ ํ•™์Šต (Das et al., 2024a) ๊ฐœ๋…์„ ์ผ๋ฐ˜ํ™”ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๊ธฐ์กด ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, ๊ทธ๋ฃน ์–ดํ…์…˜์€ ๊ด€๋ จ ์‹œ๊ณ„์—ด์˜ ๊ทธ๋ฃน ๋‹จ์œ„๋กœ ์ž‘๋™ํ•˜๋ฉฐ, ์•„ํ‚คํ…์ฒ˜ ์ˆ˜์ •์ด๋‚˜ ์ž‘์—…๋ณ„ ์ ์‘ ์—†์ด๋„ ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ์ž‘์—…์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ‘œ 1์€ Chronos-2์™€ ๊ธฐ์กด ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ๋“ค์˜ ๊ธฐ๋Šฅ์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ

  • ์‹œ๊ณ„์—ด : $Y_{1:T} = [y_1, \dots, y_T]$, $y_t \in \mathbb{R}^D$
    • ๋‹จ๋ณ€๋Ÿ‰ : $D=1$
    • ๋‹ค๋ณ€๋Ÿ‰ : $D>1$
  • ์˜ˆ์ธก ๊ตฌ๊ฐ„ : $H$, $Y_{T+1:T+H}$

  • ๊ณต๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด : $X_{1:T+H} = [x_1, \dots, x_{T+H}]$, $x_t \in \mathbb{R}^M$
    • ์ด๋•Œ ๊ณต๋ณ€๋Ÿ‰์€, ๊ณผ๊ฑฐ ๊ตฌ๊ฐ„($t \le T$), ๋ฏธ๋ž˜ ๊ตฌ๊ฐ„($t > T$) ๋‘˜ ๋‹ค ์ œ๊ณต๋˜ ์ˆ˜ ์žˆ์Œ.
  • ์˜ˆ์ธก ๋ฌธ์ œ : ์  ์ถ”์ •(๋‹จ์ผ ๊ฐ’), ํ™•๋ฅ ๋ก ์  ์˜ˆ์ธก \(P(Y_{T+1:T+H} \mid Y_{1:T}, X_{1:T+H})\)
  • zero-shot : ์ถ”๊ฐ€์ ์ธ ํ•™์Šต, ์ ์‘ ๋˜๋Š” fine tunning ์—†์ด, ๊ด€์ธก๋˜์ง€ ์•Š์€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ์ง์ ‘ ์˜ˆ์ธก

Local vs Global model

Local

๋ฐ์ดํ„ฐ์…‹ ๋‚ด ๊ฐ ์‹œ๊ณ„์—ด๋งˆ๋‹ค ๊ฐœ๋ณ„์ ์ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ง‘ํ•ฉ์„ ํ•™์Šต

  • ARIMA, Exponential Smoothing, Thetaโ€ฆ ์™€ ๊ฐ™์€ ๊ณ ์ „ ํ†ต๊ณ„ ๋ชจ๋ธ

Global

ํ•˜๋‚˜์˜ ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์…‹ ๋‚ด ๋ชจ๋“  ์‹œ๊ณ„์—ด์— ๊ฑธ์ณ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณต์œ 

  • DL๋ชจ๋ธ
  • RNN : DeepState, DeepAR, TimeGrad
  • Stack : N-BEATS, N-HITS
  • TF : TFT, PatchTST

์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ

๊ธฐ์กด์—๋„ ์ „์ด ํ•™์Šต ์ž์ฒด์˜ ์ œํ•œ์ ์ธ ๊ฐ€๋Šฅ์„ฑ์ด ๊ด€์ฐฐ๋˜์—ˆ๊ณ , ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์„ ํ†ตํ•ด์„œ LLM๊ณผ ์œ ์‚ฌํ•œ ์›์น™์„ ์ฑ„ํƒํ•˜์—ฌ zero-shot ์ผ๋ฐ˜ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ์ดˆ๊ธฐ ์—ฐ๊ตฌ๋Š” ์–ธ์–ด ๋ชจ๋ธ์„ ์‹œ๊ณ„์—ด ๋ฌธ์ œ์— ์ง์ ‘ ์ ์šฉํ•˜๋Š”๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์œผ๋‚˜, ์ตœ๊ทผ์—๋Š” LLM์˜ ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜ ์•„์ด๋””์–ด๋ฅผ ์ฐจ์šฉํ•˜์—ฌ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ์ง์ ‘ ์‚ฌ์ „ ํ•™์Šต์„ ์‹œํ‚ค๋Š” ํŠธ๋žœ๋“œ โ†’ ๋Œ€๋ถ€๋ถ„ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์— ๊ตญํ•œ๋˜์–ด, ๊ฐ ์ฐจ์›์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ฑฐ๋‚˜ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ๋ฌด์‹œํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

๋‹ค์–‘ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ๋ชจ๋ธ๋“ค์˜ ํ•œ๊ณ„(2025)

  • Moirari-1์˜ ๊ฒฝ์šฐ ๋‹ค๋ณ€๋Ÿ‰ ์ž…๋ ฅ์„ ๋‚ด๋ถ€์ ์œผ๋กœ ํ‰ํƒ„ํ™”ํ•˜์—ฌ ์ฒ˜๋ฆฌ โ†’ ๊ณ ์ฐจ์› ํ™•์žฅ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ
  • COSMIC์˜ ๊ฒฝ์šฐ, ํ•ฉ์„ฑ ์ฆ๊ฐ•์„ ํ†ตํ•ด ๊ณต๋ณ€๋Ÿ‰ ํ™œ์šฉ์„ ํ™•์žฅํ•˜์ง€๋งŒ ์ด๋Š” ๋‹จ๋ณ€๋Ÿ‰ ํƒ€๊ฒŸ์—๋งŒ ์ ์šฉ
  • TabPFN-TS์˜ ๊ฒฝ์šฐ, ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ๊ณผ๊ฑฐ์˜ ๊ณต๋ณ€๋Ÿ‰ ํ˜น์€ ๋‹ค๋ณ€๋Ÿ‰ ํƒ€๊ฒŸ์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์—†๋‹ค.

GroupAttention

์ด๋Ÿฌํ•œ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ฃน ์–ดํ…์…˜์„ ์ œ์•ˆํ•จ โ†’ ๊ต์ฐจ ์–ดํ…์…˜ ์•„ํ‚คํ…์ฒ˜ (Zhang & Yan, 2023; Rao et al., 2021; Arnab et al., 2021)์™€ ์—ฌ๋Ÿฌ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ๊ต์ฐจ ํ•™์Šต (Das et al., 2024a) ๊ฐœ๋…์„ ์ผ๋ฐ˜ํ™” ๊ธฐ์กด์˜ ์ ‘๊ทผ๊ณผ ๋‹ฌ๋ฆฌ, group attention์€ ์‹œ๊ณ„์—ด์˜ ๊ทธ๋ฃน ๋‹จ์œ„๋กœ ์ž‘๋™ํ•˜๋ฉฐ ์•„ํ‚คํ…์ฒ˜์˜ ์ˆ˜์ •์ด๋‚˜ adaptation์—†์ด ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ.


ํฌ์ธํŠธ

DeepAR ํ™•๋ฅ ์  ์ž๊ธฐํšŒ๊ท€ RNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ

  • ์ˆœํ™˜์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ๊ณผ๊ฑฐ์˜ ์‹œ๊ณ„์—ด๋กœ๋ถ€ํ„ฐ ๋ฏธ๋ž˜ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์ง์ ‘์ ์œผ๋กœ ์˜ˆ์ธก
  • ์—ฌ๋Ÿฌ ์‹œ๊ณ„์—ด์„ globalํ•˜๊ณ„ ํ•™์Šต, ๋ถ„ํฌ ํ˜„ํƒœ๋กœ ํ‘œํ˜„ํ•˜๋ฏ€๋กœ ๋ถˆํ™•์‹ค์„ฑ์„ ๋ชจ๋ธ๋ง ๊ฐ€๋Šฅ
  • ๊ณผ๊ฑฐ๊ฐ’๊ณผ ๊ณต๋ณ€๋Ÿ‰์„ ์ž…๋ ฅ๋ฐ›์•„ ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ์ถœ๋ ฅ

๊ฐ•์ 

  • ๋ถˆํ™•์‹ค์„ฑ ๋ชจ๋ธ๋ง ๊ฐ€๋Šฅ
  • ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด์— ๊ฐ•ํ•จ
  • ์ „์ฒ˜๋ฆฌ ํ•„์š”์„ฑ์ด ๋น„๊ต์  ๋‚ฎ์Œ

DeepState ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM) + ๋”ฅ๋Ÿฌ๋‹ SSM โ†’ ๋™์  ์ƒํƒœ(state)์™€ ๊ด€์ธก(obs.)์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋ฉฐ ๋”ฅ๋Ÿฌ๋‹์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์ž๋™์œผ๋กœ ํ•™์Šตํ•˜๋˜, ๊ตฌ์กฐ์  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋‚จ๊ฒจ๋‘ 

๊ฐ•์ 

  • ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์กฐ์  ํ•™์Šต ๊ฐ€๋Šฅ
  • ๋ชจ๋ธ ํ•ด์„์— ์œ ๋ฆฌ

TimeGrad ํ™•์‚ฐ(diffusion) ๊ธฐ๋ฐ˜ ํ™•๋ฅ  ์‹œ๊ณ„์—ด ๋ชจ๋ธ diffusion model์„ ์‹œ๊ณ„์—ด์— ์ ์šฉํ•˜์—ฌ ํ™•๋ฅ ์  ๋ถ„ํฌ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ ์˜ˆ์ธก, ๋‹ค๋ณ€๋Ÿ‰ ํ™•๋ฅ ์  ํŒจํ„ด์„ ์ถ”์ •

๊ฐ•์ 

  • ๋ถˆํ™•์‹ค์„ฑ์ด ํฐ ๋ฌธ์ œ์— ์œ ๋ฆฌ
  • ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๊ตฌ์กฐ๋ฅผ ๋‹ค๋ฃธ

๋‹จ์ 

  • ๊ณ„์‚ฐ๋Ÿ‰
  • ์ƒ˜ํ”Œ๋ง ๋น„์šฉ

N-BEATS MLP ๊ธฐ๋ฐ˜ Residual ๋„คํŠธ์›Œํฌ ์™„์ „ํ•œ MLP๊ธฐ๋ฐ˜ ๊ตฌ์กฐ + Residual link๋ฅผ ํ™œ์šฉ ํŠธ๋ Œ๋“œ/๊ณ„์ ˆ์„ฑ ๋ถ„ํ•ด๋ฅผ ์ง„ํ–‰ํ•˜๋Š” ํ•ด์„๊ฐ€๋Šฅํ•œ ๋ชจ๋“œ์™€ ์ผ๋ฐ˜์ ์ธ ๋ชจ๋“œ ๋‘˜ ๋‹ค ๊ฐ€๋Šฅ

๊ฐ•์ 

  • RNN, TF์— ๋น„ํ•ด ๋ณต์žกํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ
  • ๋‚ฎ์€ ๋ฐ์ดํ„ฐ ๊ฐ€์šฉ์„ฑ์—๋„ ํ›Œ๋ฅญํ•œ ์„ฑ๋Šฅ

N-HITS Neural Hierarchical Interpolation ๋ชจ๋ธ N-BEATS์—์„œ ํ™•์žฅ๋œ ๋ชจ๋ธ, ๊ณ„์ธต์  ๋ณด๊ฐ„์„ ์ด์šฉํ•ด ์žฅ๊ธฐ์  ํŒจํ„ด์„ ์˜ˆ์ธกํ•˜๋ฉฐ ์„œ๋กœ ๋‹ค๋ฅธ ์Šค์ผ€์ผ ํŒจํ„ด์„ ๋ถ„๋ฆฌํ•˜์—ฌ ์˜ˆ์ธก์— ๋ฐ˜์˜

๊ฐ•์ 

  • TF๋ณด๋‹ค ์ข‹์„๋–„๋„ ์žˆ์Œ
  • ์žฅ๊ธฐ์˜ˆ์ธก ์„ฑ๋Šฅ์— ๊ฐ•์ 
  • ๋ณต์žกํ•œ ์‹œ๊ณ„์—ด ํŒจํ„ด์„ ๋‹ค์ค‘ ์Šค์ผ€์ผ๋กœ ํฌ์ฐฉ

TFT Transformer ๊ธฐ๋ฐ˜ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ์˜ˆ์ธก TF๊ธฐ๋ฐ˜์œผ๋กœ, ์ •์  ๋ณ€์ˆ˜์™€ ์‹œ๊ณ„์—ด ๋ณ€์ˆ˜๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉฐ gating๊ณผ variable selection์„ ํฌํ•จํ•ด ํ•ด์„๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณต

๊ฐ•์ 

  • ์—ฌ๋Ÿฌ ๋ฏธ๋ž˜ ์‹œ์ ์— ๋Œ€ํ•œ ์˜ˆ์ธก์— ๊ฐ•์ (MultiHorizon Forecasting)
  • ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ํ˜•ํƒœ์— ๋Œ€ํ•ด ์ฒ˜๋ฆฌ

PatchTST Transformer Long-term forecasting ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ํŒจ์น˜ํ™” ์‹œ์ผœ์„œ TF์— ์ ์šฉํ•˜์—ฌ ๊ธด ์‹œ๊ณ„์—ด์— ๋Œ€ํ•œ ์˜์กด์„ฑ์„ ์ž˜ ํ•™์Šต

๊ฐ•์ 

  • ์žฅ๊ธฐ ์˜ˆ์ธก์˜ ํšจ์œจ์„ฑ
  • TF ๊ณ„์‚ฐ๋ ฅ ํ–ฅ์ƒ

๐Ÿ“š 3 The Chronos-2 Model

๋ฒˆ์—ญ

3 Chronos-2 ๋ชจ๋ธ

๋ณธ ์ ˆ์—์„œ๋Š” Chronos-2 ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.
๋จผ์ € ์Šค์ผ€์ผ๋ง ๋ฐ ํ† ํฐํ™” ๊ณผ์ •์„ ์„ค๋ช…ํ•˜๊ณ , ์ด์–ด์„œ Chronos-2์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ๋Šฅ๋ ฅ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํฌํ•จํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋งˆ์ง€๋ง‰์œผ๋กœ Chronos-2์˜ ํ•™์Šต ๋ฐ ์ถ”๋ก  ํŒŒ์ดํ”„๋ผ์ธ์„ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
Chronos-2์˜ ์ „์ฒด ์ถ”๋ก  ํŒŒ์ดํ”„๋ผ์ธ์€ ๊ทธ๋ฆผ 1์— ์‹œ๊ฐํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.


3.1 ์Šค์ผ€์ผ๋ง ๋ฐ ํ† ํฐํ™”

์ž…๋ ฅ ๊ตฌ์„ฑ

๋ชจ๋ธ์€ ํƒ€๊ฒŸ ์‹œ๊ณ„์—ด $Y_{1:T}$์™€ ๊ณต๋ณ€๋Ÿ‰ $X_{1:T+H}$์—์„œ ํŒŒ์ƒ๋œ ๋‘ ๊ฐœ์˜ ์ž…๋ ฅ์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
๋ชจ๋“  ๊ณผ๊ฑฐ ๊ฐ’์€ \(V = [v_1, \dots, v_T]\) ๋กœ ์ •์˜๋˜๋ฉฐ, ๊ฐ \(v_t \in \mathbb{R}^{D+M}\) ์€ ํƒ€๊ฒŸ ๊ด€์ธก๊ฐ’ $y_t$์™€ ํ•ด๋‹น ๊ณต๋ณ€๋Ÿ‰ ๋ฒกํ„ฐ $x_t$๋ฅผ ์—ฐ๊ฒฐํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๋ฏธ๋ž˜ ๊ฐ’์€ \(W = [w_{T+1}, \dots, w_{T+H}]\) ๋กœ ์ •์˜๋˜๋ฉฐ, ๊ฐ \(w_t \in \mathbb{R}^{D+M}\) ์€ ์•Œ๋ ค์ง„ ๋ฏธ๋ž˜ ๊ณต๋ณ€๋Ÿ‰ ๊ฐ’์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
ํƒ€๊ฒŸ ๋˜๋Š” ๊ณผ๊ฑฐ ์ „์šฉ ๊ณต๋ณ€๋Ÿ‰์— ํ•ด๋‹นํ•˜๋Š” ํ•ญ๋ชฉ์€ ๋ฏธ๋ž˜ ๊ตฌ๊ฐ„์—์„œ ๋ˆ„๋ฝ๋œ ๊ฐ’์œผ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค.

๊ณต๋ณ€๋Ÿ‰ $X_{1:T+H}$์— ํฌํ•จ๋œ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋Š” $V$์™€ $W$๋กœ ์—ฐ๊ฒฐ๋˜๊ธฐ ์ „์— ์‹ค์ˆ˜๊ฐ’ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
๋‹จ๋ณ€๋Ÿ‰ ํƒ€๊ฒŸ์˜ ๊ฒฝ์šฐ, ํƒ€๊ฒŸ๊ณผ์˜ ๊ด€๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ ๋ฒ”์ฃผ๋ฅผ ์ˆ˜์น˜ ๊ฐ’์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ํƒ€๊ฒŸ ์ธ์ฝ”๋”ฉ์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ณ€๋Ÿ‰ ํƒ€๊ฒŸ์˜ ๊ฒฝ์šฐ์—๋Š” ๊ฐ ๋ฒ”์ฃผ์— ๊ณ ์œ ํ•œ ์ •์ˆ˜๋ฅผ ํ• ๋‹นํ•˜๋Š” ์ˆœ์„œํ˜• ์ธ์ฝ”๋”ฉ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.


๊ฐ•๊ฑดํ•œ ์Šค์ผ€์ผ๋ง

์ž…๋ ฅ ๊ฐ’ $V$์™€ $W$๋Š” ์ž„์˜์˜ ์Šค์ผ€์ผ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ํ† ํฐํ™” ํŒŒ์ดํ”„๋ผ์ธ์€ ์‹œ๊ณ„์—ด ์ •๊ทœํ™”๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.
๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํ‘œ์ค€ํ™” ์ดํ›„ ์ถ”๊ฐ€์ ์œผ๋กœ $\sinh^{-1}$ ๋ณ€ํ™˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
์ด ๋กœ๊ทธ ์œ ์‚ฌ ๋ณ€ํ™˜์€ ๋ถ„์‚ฐ์„ ์•ˆ์ •ํ™”ํ•˜๊ณ  ์ด์ƒ์น˜๊ฐ€ ๋ชฉ์  ํ•จ์ˆ˜์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ค„์ด๋Š” ๋ฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

ํ˜•์‹์ ์œผ๋กœ, ๊ฐ ๊ณผ๊ฑฐ ๊ฐ’๊ณผ ๋ฏธ๋ž˜ ๊ฐ’์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •๊ทœํ™”๋ฉ๋‹ˆ๋‹ค. \(\tilde{v}_{t,d} = \frac{\sinh^{-1}(v_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{1, \dots, T\}\)

\[\tilde{w}_{t,d} = \frac{\sinh^{-1}(w_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{T+1, \dots, T+H\}\]

์—ฌ๊ธฐ์„œ $\mu_d$์™€ $\sigma_d$๋Š” ๊ฐ๊ฐ ๊ณผ๊ฑฐ ๊ฐ’ $[v_{1,d}, \dots, v_{T,d}]$์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ์ž…๋‹ˆ๋‹ค.
๊ฒฐ์ธก๊ฐ’์€ $\mu_d$์™€ $\sigma_d$ ๊ณ„์‚ฐ์—์„œ ์ œ์™ธ๋ฉ๋‹ˆ๋‹ค.

์ •๊ทœํ™”๋œ ๊ณผ๊ฑฐ ๊ฐ’๊ณผ ๋ฏธ๋ž˜ ๊ฐ’์„ ์—ฐ๊ฒฐํ•˜์—ฌ ๋‹ค์Œ ์ž…๋ ฅ ํ–‰๋ ฌ์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. \(U = [\tilde{V}, \tilde{W}] \in \mathbb{R}^{(T+H) \times (D+M)}\)


๋ฉ”ํƒ€ ํŠน์ง• (Meta Features)

ํ† ํฐํ™” ๊ณผ์ •์—์„œ $U$์˜ ๊ฐ ์ฐจ์›์€ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
ํ•˜๋‚˜์˜ ์ฐจ์› $d$์— ํ•ด๋‹นํ•˜๋Š” ์—ด \(u_d = [u_{1,d}, \dots, u_{T+H,d}]^\top\) ์— ๋Œ€ํ•ด ๋‘ ๊ฐ€์ง€ ๋ฉ”ํƒ€ ํŠน์ง•์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์ฒซ์งธ, ์‹œ๊ฐ„ ์ธ๋ฑ์Šค \(j = -\frac{T}{C}, \dots, 0, \dots, \frac{H-1}{C}\) ๋Š” ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ƒ๋Œ€์  ์œ„์น˜๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋ฉฐ, $C$๋Š” ๋ชจ๋ธ์ด ์ง€์›ํ•˜๋Š” ์ตœ๋Œ€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด์ž…๋‹ˆ๋‹ค.

๋‘˜์งธ, ๋งˆ์Šคํฌ $m_d$๋Š” ๊ฐ’์ด ๊ด€์ธก๋˜์—ˆ์„ ๋•Œ 1, ๊ทธ๋ ‡์ง€ ์•Š์„ ๋•Œ 0์ธ ์ด์ง„ ์ง€ํ‘œ๋กœ,
๊ณผ๊ฑฐ์˜ ๊ฒฐ์ธก๊ฐ’๊ณผ ๋ฏธ๋ž˜์— ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰์„ ๊ตฌ๋ถ„ํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
๋งˆ์Šคํฌ ์ ์šฉ ์ดํ›„ ๋ชจ๋“  ๊ฒฐ์ธก๊ฐ’์€ 0์œผ๋กœ ๋Œ€์ฒด๋ฉ๋‹ˆ๋‹ค.


ํŒจ์นญ ๋ฐ ์ž„๋ฒ ๋”ฉ

์ž…๋ ฅ ์‹œ๊ณ„์—ด๊ณผ ๋ฉ”ํƒ€ ํŠน์ง•์€ ๊ธธ์ด $P$์˜ ๋น„๊ฒน์นจ ํŒจ์น˜๋กœ ๋ถ„ํ• ๋ฉ๋‹ˆ๋‹ค.
์ปจํ…์ŠคํŠธ์™€ ๋ฏธ๋ž˜ ๊ตฌ๊ฐ„์€ ๋ณ„๋„๋กœ ํŒจ์น˜ํ™”๋˜๋ฉฐ, $T$ ๋˜๋Š” $H$๊ฐ€ $P$์˜ ๋ฐฐ์ˆ˜๊ฐ€ ์•„๋‹Œ ๊ฒฝ์šฐ ์ œ๋กœ ํŒจ๋”ฉ์ด ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

๊ฐ ํŒจ์น˜ $(u_p, j_p, m_p)$๋Š” ๋‹ค์Œ ์ž”์ฐจ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉ๋ฉ๋‹ˆ๋‹ค. \(h_p = f_{\text{in},\phi}(u_p, j_p, m_p), \quad f_{\text{in},\phi} : \mathbb{R}^{3P} \rightarrow \mathbb{R}^{D_{\text{model}}}\)

์—ฌ๊ธฐ์„œ $\phi$๋Š” ๋„คํŠธ์›Œํฌ ํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ, $D_{\text{model}}$์€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์€๋‹‰ ์ฐจ์›์ž…๋‹ˆ๋‹ค.
์ปจํ…์ŠคํŠธ์™€ ๋ฏธ๋ž˜ ํŒจ์น˜ ์‚ฌ์ด์—๋Š” ๊ตฌ๋ถ„ ํ† ํฐ์ด์ž ์–ดํ…์…˜ ์‹ฑํฌ ์—ญํ• ์„ ํ•˜๋Š” REG ํ† ํฐ์„ ์‚ฝ์ž…ํ•ฉ๋‹ˆ๋‹ค.


3.2 ์•„ํ‚คํ…์ฒ˜

Chronos-2๋Š” ์ธ์ฝ”๋” ์ „์šฉ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋กœ, T5 ์ธ์ฝ”๋” ์„ค๊ณ„๋ฅผ ๋”ฐ๋ฅธ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

์‹œ๊ฐ„ ์–ดํ…์…˜

์‹œ๊ฐ„ ์–ดํ…์…˜ ๋ ˆ์ด์–ด๋Š” ์‹œ๊ฐ„ ์ถ•์„ ๋”ฐ๋ผ ์…€ํ”„ ์–ดํ…์…˜์„ ์ ์šฉํ•˜์—ฌ ๋™์ผ ์ฐจ์›์˜ ํŒจ์น˜๋“ค ๊ฐ„ ์ •๋ณด๋ฅผ ์ง‘๊ณ„ํ•ฉ๋‹ˆ๋‹ค.
์ƒ๋Œ€ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์œผ๋กœ๋Š” RoPE๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฃน ์–ดํ…์…˜

๊ทธ๋ฃน ์–ดํ…์…˜ ๋ ˆ์ด์–ด๋Š” Chronos-2์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ์ž…๋‹ˆ๋‹ค.
๋™์ผํ•œ ํŒจ์น˜ ์ธ๋ฑ์Šค์—์„œ ๋™์ผ ๊ทธ๋ฃน์— ์†ํ•œ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ์ •๋ณด๋งŒ์„ ์ง‘๊ณ„ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฃน์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹จ์ผ ์‹œ๊ณ„์—ด (์ˆœ์ˆ˜ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก)
  • ๊ด€๋ จ ์‹œ๊ณ„์—ด ์ง‘ํ•ฉ (๊ต์ฐจ ํ•™์Šต)
  • ๊ณต์œ  ๋™์  ํŠน์„ฑ์„ ๊ฐ€์ง„ ๋ณ€์ˆ˜ ์ง‘ํ•ฉ (๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก)
  • ํƒ€๊ฒŸ๊ณผ ๊ณต๋ณ€๋Ÿ‰ ์ง‘ํ•ฉ (๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก)

๊ฐ ํ•ญ๋ชฉ์€ ๊ทธ๋ฃน ID $g$๋กœ ์‹๋ณ„๋˜๋ฉฐ, ๊ทธ๋ฃน ์–ดํ…์…˜์€ ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 2์ฐจ์› ๋งˆ์Šคํฌ๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
๊ทธ๋ฃน ๋‚ด์—๋Š” ์ˆœ์„œ ๊ฐœ๋…์ด ์—†์œผ๋ฏ€๋กœ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์€ ์‚ฌ์šฉ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.


Quantile Head

ํŠธ๋žœ์Šคํฌ๋จธ ์Šคํƒ ์ดํ›„, ๋ฏธ๋ž˜ ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์€ ์ž”์ฐจ ๋ธ”๋ก์„ ํ†ต๊ณผํ•˜์—ฌ ๋ถ„์œ„์ˆ˜ ์˜ˆ์ธก \(\hat{Z} \in \mathbb{R}^{H \times D \times |Q|}\) ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

Chronos-2๋Š” ๋‹ค์Œ 21๊ฐœ ๋ถ„์œ„์ˆ˜๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. \(Q = \{0.01, 0.05, 0.1, \dots, 0.9, 0.95, 0.99\}\)

3.3 ํ›ˆ๋ จ

ํ›ˆ๋ จ ๋ฐฐ์น˜๋Š” ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ์ž‘์—…์„ ํ˜ผํ•ฉํ•˜์—ฌ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
๊ฐ ์ž‘์—…์€ $(D, M)$๊ณผ ๊ฐ ์ฐจ์›์˜ ์—ญํ• ๋กœ ์ •์˜๋˜๋ฉฐ, ์ž‘์—…๋ณ„ ๊ทธ๋ฃน ID๊ฐ€ ํ• ๋‹น๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ์€ ๋ถ„์œ„์ˆ˜ ํšŒ๊ท€ ์†์‹ค์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. $$ \sum_{q \in Q} \left[ q \cdot \max(z - \hat{z}_q, 0)

  • (1-q) \cdot \max(\hat{z}_q - z, 0) \right] $$

์†์‹ค์€ ํƒ€๊ฒŸ ์ฐจ์›์— ๋Œ€ํ•ด์„œ๋งŒ ๊ณ„์‚ฐ๋˜๋ฉฐ, ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰๊ณผ ๊ฒฐ์ธก ํƒ€๊ฒŸ์€ ์ œ์™ธ๋ฉ๋‹ˆ๋‹ค.
์ถœ๋ ฅ ํŒจ์น˜ ์ˆ˜๋Š” ํ›ˆ๋ จ ์ค‘ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค.

ํ›ˆ๋ จ์€ ๋‘ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.
์ฒซ ๋‹จ๊ณ„์—์„œ๋Š” ์ปจํ…์ŠคํŠธ ๊ธธ์ด 2048๋กœ ์‚ฌ์ „ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๊ณ ,
๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ 8192๋กœ ํ™•์žฅํ•˜์—ฌ ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.


3.4 ์ถ”๋ก 

๋ถ„์œ„์ˆ˜ ์˜ˆ์ธก์€ ๋‹ค์Œ ์—ญ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ์›๋ž˜ ์Šค์ผ€์ผ๋กœ ๋ณต์›๋ฉ๋‹ˆ๋‹ค. \(\hat{y}_{q,t,d} = \mu_d + \sigma_d \cdot \sinh(\hat{z}_{q,t,d})\)

์ถ”๋ก  ์‹œ ๊ทธ๋ฃน ID๋ฅผ ํ†ตํ•ด ๋‹ค์Œ ์„ค์ •์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก: ๊ฐ ์‹œ๊ณ„์—ด์— ๊ณ ์œ ํ•œ ๊ทธ๋ฃน ID
  • ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก: ๋™์ผ ์‹œ๊ณ„์—ด์˜ ๋ณ€์ˆ˜์— ๋™์ผ ๊ทธ๋ฃน ID
  • ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก: ํƒ€๊ฒŸ๊ณผ ๊ณต๋ณ€๋Ÿ‰์— ๋™์ผ ๊ทธ๋ฃน ID

Chronos-2๋Š” ๋ชจ๋“  ํ•ญ๋ชฉ์ด ๋™์ผ ๊ทธ๋ฃน์— ์†ํ•˜๋Š” ์ „์ฒด ๊ต์ฐจ ํ•™์Šต ๋ชจ๋“œ๋„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.


๋‚ด์šฉ

Input

ํƒ€๊ฒŸ ์‹œ๊ณ„์—ด $Y_{1:T}$์™€ ๊ณต๋ณ€๋Ÿ‰ $X_{1:T+H}$์—์„œ ํŒŒ์ƒ๋œ ๋‘ ๊ฐœ์˜ ์ž…๋ ฅ์œผ๋กœ ์ž‘๋™

๊ณผ๊ฑฐ๊ฐ’

๊ฐ $v_t$๋Š” ํƒ€๊ฒŸ ๊ด€์ธก๊ฐ’ $y_t$์™€ ํ•ด๋‹น ๊ณต๋ณ€๋Ÿ‰ ๋ฒกํ„ฐ $x_t$๋ฅผ ์—ฐ๊ฒฐ \(V = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_T \end{bmatrix} = \begin{bmatrix} y_1 & x_1 \\ y_2 & x_2 \\ \vdots & \vdots \\ y_T & x_T \end{bmatrix} \in \mathbb{R}^{T \times (D+M)}\)

๋ฏธ๋ž˜๊ฐ’ : ์˜ˆ์ธกํ•ด์•ผํ•  ๊ฐ’ + ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๊ฐ’

๊ฐ $w_t$๋Š” ํƒ€๊ฒŸ ๊ฐ’ $y_{T+i}$์™€ ์•Œ๊ณ  ์žˆ๋Š” ๊ณต๋ณ€๋Ÿ‰ ๋ฒกํ„ฐ $x_{T+i}$๋ฅผ ์—ฐ๊ฒฐ \(W = \begin{bmatrix} w_{T+1} \\ w_{T+2} \\ \vdots \\ w_{T+H} \end{bmatrix} = \begin{bmatrix} * & x_{T+1} \\ * & x_{T+2} \\ \vdots & \vdots \\ * & x_{T+H} \end{bmatrix} \in \mathbb{R}^{H \times (D+M)}\) ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜ ๊ณต๋ณ€๋Ÿ‰์— ํฌํ•จ๋œ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋Š” V์™€ W๋กœ ์—ฐ๊ฒฐ๋˜๊ธฐ ์ „์— ์‹ค์ˆ˜๊ฐ’ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜

  • ๋‹จ๋ณ€๋Ÿ‰ : ํƒ€๊ฒŸ๊ณผ์˜ ๊ด€๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ ๋ฒ”์ฃผ๋ฅผ ์ˆ˜์น˜ ๊ฐ’์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ํƒ€๊ฒŸ ์ธ์ฝ”๋”ฉ
  • ๋‹ค๋ณ€๋Ÿ‰ : ๊ฐ ๋ฒˆ์ฃผ์˜ ๊ณ ์œ ํ•œ ์ •์ˆ˜๋ฅผ ํ• ๋‹น ์ˆœ์„œํ˜• ์ธ์ฝ”๋”ฉ

Robust Scailing

์ž…๋ ฅ๊ฐ’ $V, W$๋Š” ์ž„์˜์˜ ์Šค์ผ€์ผ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ

  • standardization + $\sinh^{-1}$ ๋ณ€ํ™˜
    • ํŠนํžˆ ์•„ํฌ์‚ฌ์ธ๋ณ€ํ™˜์˜ ๊ฒฝ์šฐ, ๋ถ„์‚ฐ์„ ์•ˆ์ •ํ™”์‹œํ‚ค๊ณ  ์ด์ƒ์น˜๊ฐ€ ๋ชฉ์  ํ•จ์ˆ˜์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ค„์ด๋Š”๋ฐ ํšจ๊ณผ์ ์ž„ \(\tilde{v}_{t,d} = \frac{\sinh^{-1}(v_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{1, \dots, T\}\)
\[\tilde{w}_{t,d} = \frac{\sinh^{-1}(w_{t,d} - \mu_d)}{\sigma_d}, \quad t \in \{T+1, \dots, T+H\}\]
  • $\mu_d$์™€ $\sigma_d$๋Š” ๊ฐ๊ฐ ๊ณผ๊ฑฐ ๊ฐ’ $[v_{1,d}, \dots, v_{T,d}]$์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ
  • ๊ฒฐ์ธก๊ฐ’์€ $\mu_d$์™€ $\sigma_d$ ๊ณ„์‚ฐ์—์„œ ์ œ์™ธ
  • ์ •๊ทœํ™”๋œ ๊ณผ๊ฑฐ ๊ฐ’๊ณผ ๋ฏธ๋ž˜ ๊ฐ’์„ ์—ฐ๊ฒฐํ•˜์—ฌ Input์„ ๊ตฌ์„ฑ \(U = [\tilde{V}, \tilde{W}] \in \mathbb{R}^{(T+H) \times (D+M)}\)

Meta Features

ํ† ํฐํ™” ๊ณผ์ •์—์„œ $U$์˜ ๊ฐ ์ฐจ์›์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ ํ•˜๋‚˜์˜ ์ฐจ์› $d$์— ํ•ด๋‹นํ•˜๋Š” \(u_d = [u_{1,d}, \dots, u_{T+H,d}]^\top\) ์—์„œ ๋ฉ”ํƒ€ feature์„ ์ถ”๊ฐ€ํ•จ

  1. ์‹œ๊ฐ„ ์ธ๋ฑ์Šค \(j = -\frac{T}{C}, \dots, 0, \dots, \frac{H-1}{C}\) ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ƒ๋Œ€์  ์œ„์น˜๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋ฉฐ, $C$๋Š” ๋ชจ๋ธ์ด ์ง€์›ํ•˜๋Š” ์ตœ๋Œ€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด
  2. ๋งˆ์Šคํฌ $m_d$ ๊ฐ’์ด ๊ด€์ธก๋˜์—ˆ์„ ๋•Œ 1, ๊ทธ๋ ‡์ง€ ์•Š์„ ๋•Œ 0์ธ ์ด์ง„ ์ง€ํ‘œ. ๊ณผ๊ฑฐ์˜ ๊ฒฐ์ธก๊ฐ’๊ณผ ๋ฏธ๋ž˜์— ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰์„ ๊ตฌ๋ถ„ํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰. ๋งˆ์Šคํฌ ์ ์šฉ ์ดํ›„ ๋ชจ๋“  ๊ฒฐ์ธก๊ฐ’์€ 0์œผ๋กœ ๋Œ€์ฒด

    ํŒจ์นญ ๋ฐ ์ž„๋ฒ ๋”ฉ

    ์ž…๋ ฅ ์‹œ๊ณ„์—ด๊ณผ ๋ฉ”ํƒ€ ํŠน์ง•์€ ๊ธธ์ด $P$์˜ ์œˆ๋„์šฐ๋กœ ๋ถ„ํ•  ๊ณผ๊ฑฐ์™€ ๋ฏธ๋ž˜ ๊ตฌ๊ฐ„์€ ๋ณ„๋„๋กœ ํŒจ์น˜ํ™”, $T$ ๋˜๋Š” $H$๊ฐ€ $P$์˜ ๋ฐฐ์ˆ˜๊ฐ€ ์•„๋‹Œ ๊ฒฝ์šฐ ์ œ๋กœ ํŒจ๋”ฉ์ด ์ ์šฉ ๊ฐ ํŒจ์น˜ $(u_p, j_p, m_p)$๋Š” ๋‹ค์Œ ์ž”์ฐจ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉ \(h_p = f_{\text{in},\phi}(u_p, j_p, m_p), \quad f_{\text{in},\phi} : \mathbb{R}^{3P} \rightarrow \mathbb{R}^{D_{\text{model}}}\)

    • $\phi$ : ๋„คํŠธ์›Œํฌ ํŒŒ๋ผ๋ฏธํ„ฐ
    • $D_{\text{model}}$ : ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์€๋‹‰ ์ฐจ์›
      ์ปจํ…์ŠคํŠธ์™€ ๋ฏธ๋ž˜ ํŒจ์น˜ ์‚ฌ์ด ์–ดํ…์…˜ ์‹ฑํฌ ์—ญํ• ์„ ํ•˜๋Š” REG ํ† ํฐ์„ ์‚ฝ์ž…

์•„ํ‚คํ…์ฒ˜

Chronos-2๋Š” ์ธ์ฝ”๋” ์ „์šฉ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋กœ, T5 ์ธ์ฝ”๋” ๊ตฌ์กฐ

Time Attention
  • ์‹œ๊ฐ„ ์ถ•์„ ๋”ฐ๋ผ self-attention, ๋™์ผ ์ฐจ์›์˜ ํŒจ์น˜ ๊ฐ„ ์ •๋ณด๋ฅผ ์ง‘๊ณ„
  • ์œ„์น˜ ์ž„๋ฒ ๋”ฉ : RoPE
    Group Attention

    ๋™์ผ ๊ทธ๋ฃน์— ์†ํ•œ ์‹œ๊ณ„์—ด ๊ฐ„์˜ ์ •๋ณด๋งŒ ์ง‘๊ณ„ ๊ทธ๋ฃน์˜ ์ •์˜

  • ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด
  • ๊ด€๋ จ ์‹œ๊ณ„์—ด ์ง‘ํ•ฉ(๊ต์ฐจ ํ•™์Šต)
  • ๊ณต์œ ๋œ ๋™์ ์ธ ํŠน์ง•์„ ๊ฐ€์ง€๋Š” ๋ณ€์ˆ˜ ์ง‘ํ•ฉ(๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด)
  • ๋‹ค์ผ“๊ณผ ๊ณต๋ณ€๋Ÿ‰ ์ง‘ํ•ฉ(๊ณต๋ณ€๋Ÿ‰) ๊ฐ ๊ทธ๋ฃน์€ ๊ทธ๋ฃน ID $g$๋กœ ์‹๋ณ„๋˜๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 2์ฐจ์› ๋งˆ์Šคํฌ๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ ์–ดํ…์…˜ ๊ทธ๋ฃน ๋‚ด์—๋Š” ์ˆœ์„œ๊ฐœ๋…์ด ์—†์œผ๋ฏ€๋กœ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ
    Quantile Head

    ๋ฏธ๋ž˜ ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์€ ์ž”์ฐจ๋ธ”๋Ÿญ์„ ํ†ต๊ณผํ•˜๋ฉฐ ์ƒ์„ฑ \(\hat{Z} \in \mathbb{R}^{H \times D \times |Q|}\)

Chronos-2๋Š” ๋‹ค์Œ 21๊ฐœ ๋ถ„์œ„์ˆ˜๋ฅผ ์˜ˆ์ธก \(Q = \{0.01, 0.05, 0.1, \dots, 0.9, 0.95, 0.99\}\)

ํ›ˆ๋ จ

์œ„์˜ ๋‹ค์–‘ํ•œ ๊ทธ๋ฃน ์ •์˜๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ๊ตฌ์„ฑ์‹œํ‚ด ๊ฐ ์ž‘์—…์€ $(D, M)$๊ณผ ๊ฐ ์ฐจ์›์˜ ์—ญํ• ๋กœ ์ •์˜, ์ž‘์—…๋ณ„ ๊ทธ๋ฃน ID๊ฐ€ ํ• ๋‹น

Loss : quantile reg. loss

$$ \sum_{q \in Q} \left[ q \cdot \max(z - \hat{z}_q, 0)

  • (1-q) \cdot \max(\hat{z}_q - z, 0) \right] $$ target์— ๋Œ€ํ•ด์„œ๋งŒ ๊ณ„์‚ฐ, ๋ฏธ๋ž˜์˜ ๊ณต๋ณ€๋Ÿ‰๊ณผ ๊ฒฐ์ธก ํƒ€๊ฒŸ์€ ์ œ์™ธ ํŒจ์น˜ ์ˆ˜๋Š” ๋ฌด์ž‘์œ„ ์ƒ˜ํ”Œ๋ง(ํ›ˆ๋ จ์ค‘) ๊ณผ์ •
    1. ์ปจํ…์ŠคํŠธ ๊ธธ์ด 2048 : pretrain
    2. ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ 8192 : ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํ•™์Šต

      ์ถ”๋ก 

๋ถ„์œ„์ˆ˜ ์˜ˆ์ธก ์—ญ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ์›๋ž˜ ์Šค์ผ€์ผ๋กœ ๋ณต์› \(\hat{y}_{q,t,d} = \mu_d + \sigma_d \cdot \sinh(\hat{z}_{q,t,d})\)

์ถ”๋ก  ์‹œ ๊ทธ๋ฃน ID๋ฅผ ํ†ตํ•ด ๋‹ค์Œ ์„ค์ •์„ ์ฒ˜๋ฆฌ

  • ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก: ๊ฐ ์‹œ๊ณ„์—ด์— ๊ณ ์œ ํ•œ ๊ทธ๋ฃน ID
  • ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก: ๋™์ผ ์‹œ๊ณ„์—ด์˜ ๋ณ€์ˆ˜์— ๋™์ผ ๊ทธ๋ฃน ID
  • ๊ณต๋ณ€๋Ÿ‰ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก: ํƒ€๊ฒŸ๊ณผ ๊ณต๋ณ€๋Ÿ‰์— ๋™์ผ ๊ทธ๋ฃน ID Chronos-2๋Š” ๋ชจ๋“  ํ•ญ๋ชฉ์ด ๋™์ผ ๊ทธ๋ฃน์— ์†ํ•˜๋Š” ์ „์ฒด ๊ต์ฐจ ํ•™์Šต ๋ชจ๋“œ๋„ ์ง€์›

ํฌ์ธํŠธ

Input

Raw

\(V = \begin{bmatrix} y_1 & x_1 \\ y_2 & x_2 \\ \vdots & \vdots \\ y_T & x_T \end{bmatrix} \in \mathbb{R}^{T \times (D+M)}, \quad W = \begin{bmatrix} * & x_{T+1} \\ * & x_{T+2} \\ \vdots & \vdots \\ * & x_{T+H} \end{bmatrix} \in \mathbb{R}^{H \times (D+M)}\)

after Concat with scailing

\(U = \begin{bmatrix} \tilde{V} \\ \hline \tilde{W} \end{bmatrix} = \begin{bmatrix} \tilde{v}_{1,1} & \dots & \tilde{v}_{1,D+M} \\ \vdots & \ddots & \vdots \\ \tilde{v}_{T,1} & \dots & \tilde{v}_{T,D+M} \\ \hline \tilde{w}_{T+1,1} & \dots & \tilde{w}_{T+1,D+M} \\ \vdots & \ddots & \vdots \\ \tilde{w}_{T+H,1} & \dots & \tilde{w}_{T+H,D+M} \end{bmatrix} \in \mathbb{R}^{(T+H) \times (D+M)}\)

Input D

\(\text{Input for Dim } d = \begin{bmatrix} u_{1,d} & j_1 & m_{1,d} \\ \vdots & \vdots & \vdots \\ u_{T,d} & j_T & m_{T,d} \\ \hline u_{T+1,d} & j_{T+1} & m_{T+1,d} \\ \vdots & \vdots & \vdots \\ u_{T+H,d} & j_{T+H} & m_{T+H,d} \end{bmatrix} \in \mathbb{R}^{(T+H) \times 3}\)

Patching : u๋ฅผ P๊ฐœ์”ฉ
ํ•˜๋‚˜์˜ ํŒจ์น˜

\(\text{Patch}_p = [\underbrace{u_{t}, \dots, u_{t+P-1}}_{P \text{ values}}, \quad \underbrace{j_{t}, \dots, j_{t+P-1}}_{P \text{ indices}}, \quad \underbrace{m_{t}, \dots, m_{t+P-1}}_{P \text{ masks}}]^\top \in \mathbb{R}^{3P}\)

x

\(\mathbf{X}_{\text{sequence}} = \Big[ \underbrace{\mathbf{h}_1, \dots, \mathbf{h}_n}_{\text{Context Patches}} , \quad \mathbf{e}_{\text{REG}} , \quad \underbrace{\mathbf{h}_{n+1}, \dots, \mathbf{h}_{n+m}}_{\text{Future Patches}} \Big]\) \(\mathbf{h}_p = f_{\text{in}} \left( \left[ \underbrace{u_{t:t+P, d}}_{\text{Values}} , \underbrace{j_{t:t+P}}_{\text{Indices}} , \underbrace{m_{t:t+P, d}}_{\text{Masks}} \right] \right) \in \mathbb{R}^{D_{\text{model}}}\)

RoPE(Rotary Position Embedding) ์ž…๋ ฅ ๋ฒกํ„ฐ๋ฅผ ํŠน์ • ๊ฐ๋„๋งŒํผ ํšŒ์ „์‹œ์ผœ ๋ฒกํ„ฐ๋ฅผ ๋”ํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ• e.g. t๋ฒˆ์งธ ์œ„์น˜ โ†’ t๋ฒˆ์งธ์™€ ๋น„๋ก€ํ•˜๋Š” ๊ฐ๋„ $\theta$๋งŒํผ ํšŒ์ „ ๋ณ€ํ™˜ ์ด๋ฅผ ํ†ตํ•ด ๋‘ ํ† ํฐ ์‚ฌ์ด์˜ ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ์ง„ํ–‰ํ• ๋•Œ, ๊ฒฐ๊ณผ๊ฐ’์ด ๋‘ ํ† ํฐ์˜ ์ƒ๋Œ€์  ๊ฑฐ๋ฆฌ์—๋งŒ ์˜์กดํ•˜๊ฒŒ๋จ

Attention

  • Time Attention : ์–ด์ œ์™€ ์˜ค๋Š˜ - ์‹œ๊ฐ„ ๊ด€๊ณ„ ํ•™์Šต
  • Group Attention : ๊ฐ™์€ ์‹œ๊ฐ„๋Œ€์— ์žˆ๋Š”, ๋ณ€๋Ÿ‰๊ฐ„ ํ•™์Šต
    • ๋‹จ๋ณ€๋Ÿ‰ : ๊ฐ ์‹œ๊ณ„์—ด๋งˆ๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ID๋กœ ์ž๊ธฐ์˜ ๊ณผ๊ฑฐ๋ฅผ ํ†ตํ•ด ํ•™์Šต
    • ๊ด€๋ จ ์‹œ๊ณ„์—ด ์ง‘ํ•ฉ(๊ต์ฐจ ํ•™์Šต) : ๋น„์Šทํ•œ ์ƒํ’ˆ, ์ง€์—ญ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ™์€ ID๋กœ ๋ฌถ์Œ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์‹œ๊ณ„์—ด์ด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ context๋กœ ๋นŒ๋ ค์˜ฌ ์ˆ˜ ์žˆ์Œ(few-shot)
    • ๋‹ค๋ณ€๋Ÿ‰ : ํ•œ ์‹œ์Šคํ…œ์˜ ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜๋ฅผ ๊ฐ™์€ ID๋กœ ๋ฌถ์Œ, ๋ณ€์ˆ˜๋“ค์ด ์–ด๋–ป๊ฒŒ ๋ฌถ์—ฌ์žˆ๋Š”์ง€ ๋ฐฐ์›€
    • ํƒ€๊ฒŸ๊ณผ ๊ณต๋ณ€๋Ÿ‰ : ์˜ˆ์ธกํ•˜๋ ค๋Š” ๊ฐ’๊ณผ ํžŒํŠธ๋ฅผ ๊ฐ™์€ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์Œ

๐Ÿ“š 4 Training Data

๋ฒˆ์—ญ

Chronos-2์™€ ๊ฐ™์€ ๋ฒ”์šฉ ์‚ฌ์ „ ํ•™์Šต(pretrained) ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์˜ ํŠน์ • ์•„ํ‚คํ…์ฒ˜๋ณด๋‹ค๋„ ๋” ๊ฒฐ์ •์ ์ธ ์—ญํ• ์„ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.
์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ€์šฉ์„ฑ์ด ํ™•๋Œ€๋˜๊ณ  ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ (Woo et al., 2024; Ansari et al., 2024; Aksu et al., 2024), ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์…‹๋“ค์€ ์ฃผ๋กœ ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  Chronos-2์— ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(in-context learning) ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ํฌ๊ฒŒ ์˜์กดํ•˜์˜€์Šต๋‹ˆ๋‹ค.


4.1 ๋‹จ๋ณ€๋Ÿ‰ ๋ฐ์ดํ„ฐ

Chronos(Ansari et al., 2024) ๋ฐ GIFT-Eval(Aksu et al., 2024)์˜ ์‚ฌ์ „ ํ•™์Šต ์ฝ”ํผ์Šค์—์„œ ์„ ๋ณ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ Chronos-2์˜ ํ•™์Šต ์ฝ”ํผ์Šค์— ํ†ตํ•ฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ๋ชฉ๋ก์€ ๋ถ€๋ก์˜ ํ‘œ 6์— ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ๋‹ค์Œ์˜ ๋‘ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ๋ณ€๋Ÿ‰ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  • TSI (Trend, Seasonality, Irregularity)
    Bahrpeyma et al.(2021)์— ๊ธฐ๋ฐ˜ํ•œ ์ƒ์„ฑ๊ธฐ๋กœ, ๋‹ค์–‘ํ•œ ์ถ”์„ธ(trend), ๊ณ„์ ˆ์„ฑ(seasonality), ๋ถˆ๊ทœ์น™์„ฑ(irregularity) ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์กฐํ•ฉํ•˜์—ฌ ํญ๋„“์€ ํ•ฉ์„ฑ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  • TCM (Temporal Causal Model)
    ์‹œ๊ฐ„์  ์ธ๊ณผ ๋ชจ๋ธ(Runge et al., 2023)์—์„œ ๋ฌด์ž‘์œ„ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ˜ํ”Œ๋งํ•œ ๋’ค, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž๊ธฐํšŒ๊ท€(auto-regressive) ๊ณผ์ •์„ ํ†ตํ•ด ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

    4.2 ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ์ดํ„ฐ

๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก ๋ฐ ๊ณต๋ณ€๋Ÿ‰(covariate) ๊ธฐ๋ฐ˜ ์ž‘์—…์˜ ๊ฒฝ์šฐ, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ „์ ์œผ๋กœ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๋‹ค์–‘ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ๊ตฌ์กฐ๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ €(multivariatizer)๋ผ๋Š” ๊ฐœ๋…์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ €๋Š” ๊ธฐ๋ณธ ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ๋กœ๋ถ€ํ„ฐ ์—ฌ๋Ÿฌ ์‹œ๊ณ„์—ด์„ ์ƒ˜ํ”Œ๋งํ•œ ๋’ค, ์ด๋“ค ์‚ฌ์ด์— ์ข…์†์„ฑ์„ ๋ถ€์—ฌํ•จ์œผ๋กœ์จ ๋‹ค๋ณ€๋Ÿ‰ ๋™์—ญํ•™์„ ์ƒ์„ฑํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ณธ ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ๋กœ๋Š” ์ž๊ธฐํšŒ๊ท€(AR) ๋ชจ๋ธ, ์ง€์ˆ˜ ํ‰ํ™œ(ETS) ๋ชจ๋ธ, TSI, ๊ทธ๋ฆฌ๊ณ  KernelSynth(Ansari et al., 2024) ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๋‹ค์Œ์˜ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ € ํด๋ž˜์Šค๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  • ๋™์‹œ ๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ € (Cotemporaneous Multivariatizer)
    ๊ธฐ๋ณธ ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ณ„์—ด๋“ค์— ๋Œ€ํ•ด ๋™์ผํ•œ ํƒ€์ž„์Šคํ…์—์„œ ์„ ํ˜• ๋˜๋Š” ๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
    ์ด๋ฅผ ํ†ตํ•ด ์‹œ๊ณ„์—ด ๊ฐ„์˜ ์ฆ‰๊ฐ์ ์ธ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋„์ž…ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  • ์ˆœ์ฐจ ๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ € (Sequential Multivariatizer)
    ์‹œ๊ฐ„ ์ถ•์„ ๋”ฐ๋ผ ์ข…์†์„ฑ์„ ์œ ๋„ํ•จ์œผ๋กœ์จ ์„ ํ–‰โ€“์ง€์—ฐ ํšจ๊ณผ(leadโ€“lag effect)๋‚˜ ๊ณต์ ๋ถ„(cointegration)๊ณผ ๊ฐ™์€ ๋ณด๋‹ค ํ’๋ถ€ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ํŠน์„ฑ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ €๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์€
(1) ๋ชจ๋“  ๋ณ€๋Ÿ‰์„ ์˜ˆ์ธกํ•ด์•ผ ํ•˜๋Š” ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก ํƒœ์Šคํฌ์™€,
(2) ๋ณ€๋Ÿ‰์˜ ์ผ๋ถ€๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ๊ด€์ธก ๊ฐ€๋Šฅํ•œ ๊ณต๋ณ€๋Ÿ‰์œผ๋กœ ์ง€์ •๋˜๋Š” ๊ณต๋ณ€๋Ÿ‰


๋‚ด์šฉ

๋‹จ๋ณ€๋Ÿ‰

Chronos, GIFT-Eval์˜ ์‚ฌ์ „ ํ•™์Šต์—์„œ ์„ ๋ณ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ Chronos-2์— ์‚ฌ์šฉ

ํ•ฉ์„ฑ
  • TSI(Trend, Seasonality, Irregularity) : trend(์ถ”์„ธ), seasonality(๊ณ„์ ˆ์„ฑ), irregularity(๋ถˆํ™•์‹ค์„ฑ)์„ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์กฐํ•ฉ
  • TCM(Temporal Casual Model) : ์‹œ๊ฐ„์  ์ธ๊ณผ ๋ชจ๋ธ์—์„œ ๋ฌด์ž‘์œ„ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ˜ํ”Œ๋ง, AR(์ž๊ท€ ํšŒ๊ท€)๋ฐฉ์‹์œผ๋กœ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑ

๋‹ค๋ณ€๋Ÿ‰

๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก ๋ฐ ๊ณต๋ณ€๋Ÿ‰ task์˜ ๊ฒฝ์šฐ, ์ „์ ์œผ๋กœ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ์˜์กด Multivariatizer๋ผ๋Š” ๊ฐœ๋…์„ ๋„์ž… ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ๋กœ๋ถ€ํ„ฐ ์—ฌ๋Ÿฌ ์‹œ๊ณ„์—ด์„ ์ƒ˜ํ”Œ๋ง โ†’ ์ด๋“ค ์‚ฌ์ด์— ์ข…์†์„ฑ์„ ๋ถ€์—ฌ = ๋‹ค๋ณ€๋Ÿ‰์„ ์ƒ์„ฑํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ - AR model - ETS model - KernelSynth ๋“ฑ

  • Cotemporaneous Multivariatizer(๋™์‹œ ๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ €) : ๊ธฐ๋ณธ ๋‹จ๋ณ€๋Ÿ‰ ์ƒ์„ฑ๊ธฐ์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ณ„์—ด๋“ค์— ๋Œ€ํ•ด ๋™์ผํ•œ ์‹œ๊ฐ„์—์„œ ์„ ํ˜• ๋˜๋Š” ๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ์ ์šฉ โ†’ ์ด๋ฅผ ํ†ตํ•ด ์‹œ๊ณ„์—ด๊ฐ„ ์ฆ‰๊ฐ์ ์ธ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋„์ž…ํ•œ ์‹œ๊ณ„์—ด์„ ์ƒ์„ฑ
  • Sequential Multivariatizer(์ˆœ์ฐจ ๋ฉ€ํ‹ฐ๋ฒ ๋ฆฌ์•„ํƒ€์ด์ €) : ์‹œ๊ฐ„ ์ถ•์„ ๋”ฐ๋ผ ์ข…์†์„ฑ์„ ์œ ๋„ โ†’ ์„ ํ–‰-์ง€์—ฐํšจ๊ณผ ํ˜น์€ ๊ณต์ ๋ถ„๊ณผ ๊ฐ™์€ ๋‹ค๋ณ€๋Ÿ‰ ํŠน์„ฑ์„ ์ƒ์„ฑ

ํฌ์ธํŠธ

TSI(Trend, Seasonality, Irregularity) ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” 3๊ฐ€์ง€ ์„ฑ๋ถ„(์ถ”์„ธ, ๊ณ„์ ˆ์„ฑ, ๋ถˆํ™•์‹ค์„ฑ)์„ ๋ฌด์ž‘์œ„๋กœ ์กฐํ•ฉ(๊ธฐ์กด๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์œ ๋ž˜ X)ํ•˜์—ฌ ๋‹จ๋ณ€๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ โ†’ ๋ชจ๋ธ์ด ํ•™์Šตํ•ด๋ณด์ง€ ๋ชปํ•œ ํฌ๊ท€ํ•œ ํŒจํ„ด, ๋ฐ์ดํ„ฐ๋ฌธ์ œ ํ•ด๊ฒฐ

TCM(Temporal Causal Model) ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋ง ๋ฌด์ž‘์œ„ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ˜ํ”Œ๋ง ํ›„ ์ž๊ธฐํšŒ๊ท€, A์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜๋ฉด ์ผ์ • ์‹œ๊ฐ„ ๋’ค B์‚ฌ๊ฑด์— ์˜ํ–ฅ์„ ์ค€๋‹ค๋Š” ์‹œ๊ฐ„์  ์ธ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ดํ„ฐ์— ๋ถ€์—ฌ

  • ๋ฌด์ž‘์œ„ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„ : ๋ณ€์ˆ˜๋“ค ์‚ฌ์ด์˜ โ€œ์›์ธ๊ณผ ๊ฒฐ๊ณผโ€๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€๋„๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๊ทธ๋ ค๋‚ธ ๊ฒƒ, ์ฆ‰ ์ปดํ“จํ„ฐ๊ฐ€ ์–ด๋–ค ๋ณ€์ˆ˜๊ฐ€ ์–ด๋–ค ๋ณ€์ˆ˜์˜ ์›์ธ ํ˜น์€ ์˜ํ–ฅ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ๊ฐ•ํ• ์ง€๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๊ฒฐ์ •ํ•˜๋ฉฐ ์ด๋Š” ํ˜„์‹ค์„ธ๊ณ„์˜ What-if์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์œ„ํ•จ

์„ ํ–‰ ์ง€์—ฐ ํšจ๊ณผ ์‹œ๊ฐ„์ฐจ ๊ด€๊ณ„๋ฅผ ์˜๋ฏธ. ํ•œ ์‹œ๊ณ„์—ด(Lead)์˜ ์›€์ง์ž„์ด ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด(Lag)์— ์ผ์ •ํ•œ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์„ ๋‘๊ณ  ๋‚˜์ค‘์— ๋‚˜ํƒ€๋‚˜๋Š” ํ˜„์ƒ e.g. ๊ฐ€๊ฒฉ์ด ์˜ค๋ฅด๋ฉด(Lead)โ†’์™„์ œํ’ˆ์˜ ๊ฐ€๊ฒฉ์ด ์˜ค๋ฅด๋Š”(Lag)๊ด€๊ณ„

๊ณต์ ๋ถ„ ๊ฐ๊ฐ์€ ๋ถˆ์•ˆ์ •(Non-Stationary)ํ•˜์—ฌ ์ œ๋ฉ‹๋Œ€๋กœ ์›€์ง์ด๋Š” ๊ฒƒ ๊ฐ™์ง€๋งŒ, ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ์ผ์ •ํ•œ ๊ด€๊ณ„๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ ํ•จ๊ป˜ ์›€์ง์ด๋Š” ์„ฑ์งˆ ๊ฐœ๋ณ„ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ”์„ธ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์–ด ๋ถˆ์•ˆ์ •ํ•˜๋”๋ผ๋„, ์ด๋“ค์˜ ์„ ํ˜• ์กฐํ•ฉ์ด ์•ˆ์ •์ ์ธ ์ƒํƒœ๊ฐ€ ๋  ๋•Œ ๊ณต์ ๋ถ„ ๊ด€๊ณ„์— ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค. e.g. ์ˆ ์ทจํ•œ ์‚ฌ๋žŒ๊ณผ ๊ฐœ : ์„œ๋กœ ๋น„ํ‹€๊ฑฐ๋ฆฌ์ง€๋งŒ ๋ชฉ์ค„๋กœ ์—ฐ๊ฒฐ๋˜์–ด ๊ฐ™์€ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๊ฐ„๋‹ค


๐Ÿ“š 5 Experiments

๋ฒˆ์—ญ

๋ณธ ์ ˆ์—์„œ๋Š” Chronos-2๋ฅผ ์„ธ ๊ฐ€์ง€ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ(5.1์ ˆ)์— ๋Œ€ํ•ด ์ตœ์ฒจ๋‹จ ์ ‘๊ทผ๋ฒ•๋“ค๊ณผ ๋น„๊ต ํ‰๊ฐ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์ดํ›„ ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ทธ๋ฆฌ๊ณ  ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ํƒœ์Šคํฌ์—์„œ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(in-context learning, ICL)์„ ํ†ตํ•ด ์–ป์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค(5.2์ ˆ).
๋‹ค์Œ์œผ๋กœ, ๊ณต๋ณ€๋Ÿ‰์ด ์ •ํ™•ํ•œ ์˜ˆ์ธก์— ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜๋Š” ์—๋„ˆ์ง€ ๋ฐ ์†Œ๋งค ๋„๋ฉ”์ธ ํƒœ์Šคํฌ์—์„œ Chronos-2์˜ ์„ฑ๋Šฅ์„ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค(5.3์ ˆ).
๋งˆ์ง€๋ง‰์œผ๋กœ, ๋” ์ž‘์€ ๋ชจ๋ธ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šต๋œ ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ  ์žฅ๊ธฐ ๋ฌธ๋งฅ ํ›„์† ํ•™์Šต ์ด์ „ ๋ชจ๋ธ์„ ํฌํ•จํ•œ Chronos-2์˜ ๋‹ค์–‘ํ•œ ์ถ•์†Œยท๋ณ€ํ˜• ๋ชจ๋ธ์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค(5.4์ ˆ).

๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ

ํ‘œ 3: fev-bench ๊ฒฐ๊ณผ
ํ‰๊ท  ์Šน๋ฅ ๊ณผ ์Šคํ‚ฌ ์ ์ˆ˜๋Š” ์Šค์ผ€์ผ๋ง๋œ ๋ถ„์œ„์ˆ˜ ์†์‹ค(Scaled Quantile Loss, SQL) ์ง€ํ‘œ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ณ„์‚ฐ๋˜๋ฉฐ, ๋‘ ๊ฐ’ ๋ชจ๋‘ ํด์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
Chronos-2๋Š” ๋‹จ๋ณ€๋Ÿ‰, ๋‹ค๋ณ€๋Ÿ‰, ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ํƒœ์Šคํฌ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” fev-bench์—์„œ ๊ธฐ์กด์˜ ๋ชจ๋“  ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์„ ์ƒ๋‹นํ•œ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ณธ ๊ฒฐ๊ณผ์™€ ํŠน์ • ํƒœ์Šคํฌ์˜ ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€์ฒด ์ „๋žต์€ Shchur et al.(2025)์—์„œ ๊ฐ€์ ธ์™”์œผ๋ฉฐ, ์ถ”๊ฐ€ ์˜ˆ์ธก ์ง€ํ‘œ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋Š” ๋ถ€๋ก์˜ ํ‘œ 7โ€“9์— ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” 120M ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๊ธฐ๋ณธ Chronos-2 ๋ชจ๋ธ์„ ๋‹ค์Œ์˜ ์„ธ ๊ฐ€์ง€ ํฌ๊ด„์ ์ธ ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • fev-bench (Shchur et al., 2025)
  • GIFT-Eval (Aksu et al., 2024)
  • Chronos Benchmark II (Ansari et al., 2024)

์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ๊ฐ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ•œ ์ตœ์ฒจ๋‹จ ์‹œ๊ณ„์—ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” TiRex, TimesFM-2.5, Toto-1.0, Moirai-2.0, TabPFN-TS, COSMIC, Sundial, ๊ทธ๋ฆฌ๊ณ  Chronos์˜ ์ตœ์‹  ๊ณต๊ฐœ ๋ฒ„์ „์ธ Chronos-Bolt๊ฐ€ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ ํ†ต๊ณ„์  ์˜ˆ์ธก ๋ฌธํ—Œ(Hyndman & Athanasopoulos, 2018)์— ๊ธฐ๋ฐ˜ํ•œ AutoARIMA, AutoETS, AutoTheta ๋ฐ ์ด๋“ค์˜ ์•™์ƒ๋ธ”๋„ ์ถ”๊ฐ€์ ์ธ ๊ธฐ์ค€์„ ์œผ๋กœ ํฌํ•จํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด์ „ ์—ฐ๊ตฌ(Aksu et al., 2024; Ansari et al., 2024)์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์ด ํ‰๊ท ์ ์œผ๋กœ ํƒœ์Šคํฌ ํŠนํ™” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ์„ ํ™•์ธํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์—, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Chronos-2๋ฅผ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ๋“ค๊ณผ๋งŒ ๋น„๊ตํ•˜๊ณ  ํƒœ์Šคํฌ๋ณ„ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ํ‰๊ฐ€์—์„œ ์ œ์™ธํ–ˆ์Šต๋‹ˆ๋‹ค.

Shchur et al.(2025)์„ ๋”ฐ๋ผ, ๋ชจ๋“  ๋ชจ๋ธ์— ๋Œ€ํ•ด ํ‰๊ท  ์Šน๋ฅ (W)๊ณผ ์Šคํ‚ฌ ์ ์ˆ˜(S)๋ฅผ ํ•จ๊ป˜ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค.
์ด ์ง€ํ‘œ๋“ค์€ ์ด์ „ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ํ‰๊ท  ์ˆœ์œ„(R) ๋ฐ ๊ธฐํ•˜ ํ‰๊ท  ์ƒ๋Œ€ ์˜ค์ฐจ(G)์™€ ์ˆ˜ํ•™์ ์œผ๋กœ ๋™๋“ฑํ•˜๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

  • $R = 1 + (1 - W / 100)(N - 1)$
  • $G = 1 - S / 100$

์—ฌ๊ธฐ์„œ $N$์€ ๋น„๊ต๋œ ๋ชจ๋ธ์˜ ์ˆ˜์ž…๋‹ˆ๋‹ค.
์Šน๋ฅ ์€ ๋ชจ๋ธ์ด ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์Œ๋Œ€ ๋น„๊ต์˜ ๋น„์œจ์„ ์˜๋ฏธํ•˜๋ฉฐ, ์Šคํ‚ฌ ์ ์ˆ˜๋Š” ๊ธฐ์ค€ ๋ชจ๋ธ(Seasonal Naive) ๋Œ€๋น„ ํ‰๊ท  ๋ฐฑ๋ถ„์œจ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

fev-bench

fev-bench๋Š” ๊ณต๋ณ€๋Ÿ‰์„ ํฌํ•จํ•œ 100๊ฐœ์˜ ์˜ˆ์ธก ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๊ฐ€์žฅ ํฌ๊ด„์ ์œผ๋กœ ํฌ๊ด„ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.
์ด ๋ฐ์ดํ„ฐ์…‹๋“ค์€ Chronos-2์˜ ํ•™์Šต ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

ํ‘œ 3์€ SQL ์ง€ํ‘œ ๊ธฐ์ค€์˜ fev-bench ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, Chronos-2๋Š” ์Šน๋ฅ ๊ณผ ์Šคํ‚ฌ ์ ์ˆ˜ ๋ชจ๋‘์—์„œ ๊ธฐ์กด ์‹œ๊ณ„์—ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ fev-bench๋Š” ๋ชจ๋ธ ๊ฐ„ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 2์— ์ œ์‹œ๋œ 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๋ถ„์„ ๊ฒฐ๊ณผ๋Š” Chronos-2๊ฐ€ TiRex ๋ฐ TimesFM-2.5๋ฅผ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

GIFT-Eval

GIFT-Eval์€ 55๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํŒŒ์ƒ๋œ 97๊ฐœ์˜ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ณ ์ฃผํŒŒ ์‹œ๊ณ„์—ด๊ณผ ์žฅ๊ธฐ ์˜ˆ์ธก์— ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.
ํ‘œ 4์˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด Chronos-2๋Š” ๊ฐ€์ค‘ ๋ถ„์œ„์ˆ˜ ์†์‹ค(WQL)๊ณผ ํ‰๊ท  ์ ˆ๋Œ€ ์Šค์ผ€์ผ ์˜ค์ฐจ(MASE) ๋ชจ๋‘์—์„œ ์ด์ „ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์ „ ํ•™์Šต ์ฝ”ํผ์Šค๋ฅผ ๊ตฌ์„ฑํ•  ๋•Œ GIFT-Eval์˜ ํ…Œ์ŠคํŠธ ๊ตฌ๊ฐ„๊ณผ ์ค‘๋ณต๋˜์ง€ ์•Š๋„๋ก ์ฃผ์˜ํ–ˆ์œผ๋‚˜, ์ผ๋ถ€ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•™์Šต ๊ตฌ๊ฐ„๊ณผ๋Š” ๋ถ€๋ถ„์ ์ธ ์ค‘๋ณต์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
์—„๊ฒฉํ•œ ์ œ๋กœ์ƒท ๊ฒฐ๊ณผ๋Š” 5.4์ ˆ์—์„œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํ†ตํ•ด ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

Chronos Benchmark II

Chronos Benchmark II๋Š” 27๊ฐœ์˜ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ‰๊ท ์ ์œผ๋กœ 300 ํƒ€์ž„์Šคํ… ๋ฏธ๋งŒ์˜ ์งง์€ ์ด๋ ฅ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
์ด ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ Chronos-2๋Š” WQL ๋ฐ MASE ๊ธฐ์ค€์—์„œ ๋ชจ๋“  ๊ธฐ์กด ๋ชจ๋ธ์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค(ํ‘œ 5 ์ฐธ์กฐ).

์ข…ํ•ฉํ•˜๋ฉด, Chronos-2๋Š” ์„ธ ๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ ์ „๋ฐ˜์—์„œ ๋ชจ๋“  ๊ฒฝ์Ÿ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, Chronos-Bolt ๋Œ€๋น„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ ๊ณผ ํ•™์Šต ์ „๋žต์˜ ํšจ๊ณผ๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์„ ํ†ตํ•œ ๊ฐœ์„ 

5.1์ ˆ์˜ ๊ฒฐ๊ณผ๋Š” ์ „์ฒด ๊ต์ฐจ ํ•™์Šต ๋ชจ๋“œ์—์„œ ICL์ด ํ™œ์„ฑํ™”๋œ Chronos-2์˜ ์„ฑ๋Šฅ์ž…๋‹ˆ๋‹ค.
๋ณธ ์ ˆ์—์„œ๋Š” ๋‹จ๋ณ€๋Ÿ‰ ์ถ”๋ก  ๋ชจ๋“œ์™€ ๋น„๊ตํ•˜์—ฌ ICL๋กœ ์ธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด fev-bench๋ฅผ ๋‹ค์Œ์˜ ์„ธ ๋ถ€๋ถ„์ง‘ํ•ฉ์œผ๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค.

  • ๋‹จ๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹: ๋‹จ์ผ ๋Œ€์ƒ ์‹œ๊ณ„์—ด, ๊ณต๋ณ€๋Ÿ‰ ์—†์Œ (32๊ฐœ ํƒœ์Šคํฌ)
  • ๋‹ค๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹: ๋‹ค์ค‘ ๋Œ€์ƒ, ๊ณต๋ณ€๋Ÿ‰ ์—†์Œ (26๊ฐœ ํƒœ์Šคํฌ)
  • ๊ณต๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹: ํ•˜๋‚˜ ์ด์ƒ์˜ ๊ณผ๊ฑฐ ๋˜๋Š” ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰ ํฌํ•จ (42๊ฐœ ํƒœ์Šคํฌ)

๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋“œ์—์„œ๋Š” ๊ฐ ์‹œ๊ณ„์—ด์„ ๋…๋ฆฝ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋ฉฐ ๊ณต๋ณ€๋Ÿ‰์€ ๋ฌด์‹œ๋ฉ๋‹ˆ๋‹ค.

๋‹จ๋ณ€๋Ÿ‰ ํƒœ์Šคํฌ

๊ทธ๋ฆผ 3์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ICL์€ ๋‹จ๋ณ€๋Ÿ‰ ํƒœ์Šคํฌ์—์„œ ์Šคํ‚ฌ ์ ์ˆ˜๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
ํŠนํžˆ ์งง์€ ์ด๋ ฅ์„ ํฌํ•จํ•˜๋Š” ํƒœ์Šคํฌ๊ฐ€ ๋งŽ์€ Chronos Benchmark II์—์„œ ํšจ๊ณผ๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ์ œํ•œ๋œ ๊ด€์ธก ๊ตฌ๊ฐ„์—์„œ๋„ ๊ด€๋ จ ์‹œ๊ณ„์—ด ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๋‹ค๋ณ€๋Ÿ‰ ํƒœ์Šคํฌ

fev-bench์˜ ๋‹ค๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹์—์„œ๋Š” ICL์˜ ์ด๋“์ด ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์Šต๋‹ˆ๋‹ค.
ํฅ๋ฏธ๋กญ๊ฒŒ๋„ ๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋“œ์˜ Chronos-2๋Š” ๋„ค์ดํ‹ฐ๋ธŒ ๋‹ค๋ณ€๋Ÿ‰ ๋ชจ๋ธ์ธ Toto-1.0๋ณด๋‹ค๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

์ด๋Š” Takens์˜ ์ž„๋ฒ ๋”ฉ ์ •๋ฆฌ(Takens, 2006)๊ฐ€ ์‹œ์‚ฌํ•˜๋“ฏ, ์ถฉ๋ถ„ํžˆ ๊ธด ๋‹จ๋ณ€๋Ÿ‰ ์ด๋ ฅ์ด ์‹œ์Šคํ…œ์˜ ์ฃผ์š” ๋™์—ญํ•™์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์œ ์‚ฌํ•œ ๊ด€์ฐฐ์€ Nie et al.(2023)์—์„œ๋„ ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ณต๋ณ€๋Ÿ‰ ํฌํ•จ ํƒœ์Šคํฌ

๊ฐ€์žฅ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ๊ณต๋ณ€๋Ÿ‰์„ ํฌํ•จํ•˜๋Š” ํƒœ์Šคํฌ์—์„œ ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค.
ICL์„ ํ†ตํ•ด Chronos-2๋Š” ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋‹จ๋ณ€๋Ÿ‰ ์ถ”๋ก  ๋Œ€๋น„ ํฐ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
์ด ์„œ๋ธŒ์…‹์—์„œ ๋‘ ๋ฒˆ์งธ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ชจ๋ธ์€ ๊ณต๋ณ€๋Ÿ‰์„ ์ง€์›ํ•˜๋Š” TabPFN-TS์ž…๋‹ˆ๋‹ค.

๋„๋ฉ”์ธ๋ณ„ ์‚ฌ๋ก€ ์—ฐ๊ตฌ

์—๋„ˆ์ง€ ๋ฐ ์†Œ๋งค ๋„๋ฉ”์ธ์—์„œ ๊ณต๋ณ€๋Ÿ‰์„ ํฌํ•จํ•˜๋Š” fev-bench ํƒœ์Šคํฌ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์ถ”๊ฐ€ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
๊ฐ๊ฐ 16๊ฐœ(์—๋„ˆ์ง€)์™€ 17๊ฐœ(์†Œ๋งค) ํƒœ์Šคํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ๊ธฐ์ค€์„ ์œผ๋กœ TabPFN-TS์™€ TiRex๋ฅผ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ Chronos-2๋Š” ๋ชจ๋“  ๊ฒฝ์šฐ์—์„œ ๊ธฐ์ค€์„  ๋ชจ๋ธ์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๊ณต๋ณ€๋Ÿ‰ ํ†ตํ•ฉ์ด ์‹ค์ œ ์˜ˆ์ธก ์„ฑ๋Šฅ์— ๋งค์šฐ ์ค‘์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋…์ผ ์—๋„ˆ์ง€ ๊ฐ€๊ฒฉ ์˜ˆ์ธก ํƒœ์Šคํฌ์™€ Rossmann ์†Œ๋งค ํŒ๋งค ์˜ˆ์ธก ํƒœ์Šคํฌ ์‚ฌ๋ก€ ๋ถ„์„์—์„œ๋„, ICL์€ ๊ณต๋ณ€๋Ÿ‰์„ ํ™œ์šฉํ•ด ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ๊ณผ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

Ablation Studies

๋ณธ ์ ˆ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์„ค๊ณ„ ์„ ํƒ์˜ ์˜ํ–ฅ์„ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€ ์‹คํ—˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ํฌ๊ธฐ

28M ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์†Œํ˜• ๋ชจ๋ธ์€ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋งค์šฐ ์ œํ•œ์ ์ธ ๋ฐ˜๋ฉด, ์ถ”๋ก  ์†๋„๋Š” ์•ฝ 2๋ฐฐ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ž์›์ด ์ œํ•œ๋œ ํ™˜๊ฒฝ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ Chronos-2-Synth๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋œ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‹ค์†Œ ๋‚ฎ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

๊ธด ๋ฌธ๋งฅ ํ›„์† ํ•™์Šต

๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ 2,048์—์„œ 8,192 ํƒ€์ž„์Šคํ…์œผ๋กœ ํ™•์žฅํ•œ ํ›„์† ํ•™์Šต์€ ์„ฑ๋Šฅ์„ ์ „๋ฐ˜์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ํŠนํžˆ ์žฅ์ฃผ๊ธฐ ๊ณ„์ ˆ์„ฑ์ด ๊ฐ•ํ•œ ๊ณ ์ฃผํŒŒ ๋ฐ์ดํ„ฐ์—์„œ ํšจ๊ณผ๊ฐ€ ํฝ๋‹ˆ๋‹ค.


๋‚ด์šฉ

ํ‰๊ท  ์Šน๋ฅ , ์Šคํ‚ฌ ์ ์ˆ˜ : SQL๊ธฐ์ค€์œผ๋กœ ๊ณ„์‚ฐ๋˜๋ฉฐ ๋‘ ๊ฐ’ ๋ชจ๋‘ ํด์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ

์ถ”๊ฐ€์˜ˆ์ธก์ง€ํ‘œ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ(๋ถ€๋ก ํ‘œ 7~9)

120M ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๊ธฐ๋ณธ Chronos-2 ๋ชจ๋ธ๋กœ ํ‰๊ฐ€

  • fev-bench (Shchur et al., 2025)
  • GIFT-Eval (Aksu et al., 2024)
  • Chronos Benchmark II (Ansari et al., 2024)

์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ๊ฐ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ•œ ์ตœ์ฒจ๋‹จ ์‹œ๊ณ„์—ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ต๋ฅผ ์ง„ํ–‰(TiRex, TimesFM-2.5, Toto-1.0, Moirai-2.0, TabPFN-TS, COSMIC, Sundial, Chronos์˜ ์ตœ์‹  ๊ณต๊ฐœ ๋ฒ„์ „์ธ Chronos-Bolt) ํ†ต๊ณ„๋ชจ๋ธ๋“ค๋„ AutoARIMA, AutoETS, AutoTheta ๋ฐ ์ด๋“ค์˜ ์•™์ƒ๋ธ”๋„ ์ถ”๊ฐ€ ์ด์ „ ํฌ๋กœ๋…ธ์Šค์—์„œ ๋‹ค์šด์ŠคํŠธ๋ฆผ task๋Š” ๋น„์Šทํ•˜๊ฑฐ๋‚˜, ๋” ๋‚˜์€ ๊ฒฝํ–ฅ์„ ๋ณด์˜€๊ธฐ๋•Œ๋ฌธ์— ํ•ด๋‹น ์ž‘์—…์€ ์ œ์™ธํ•จ

fev-bench

๊ณต๋ณ€๋Ÿ‰์„ ํฌํ•จํ•œ 100๊ฐœ์˜ ์˜ˆ์ธก task๋กœ ๊ตฌ์„ฑ, ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๊ฐ€์žฅ ํฌ๊ด„์ ์œผ๋กœ ํฌ๊ด„ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ(ํ•™์Šต๊ณผ์ •์—์„œ ์‚ฌ์šฉ ์•ˆํ•จ) ๋ชจ๋“  ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ Chronos2๊ฐ€ ๋Šฅ๊ฐ€ํ•จ

fev-bench๋Š” ๋ชจ๋ธ ๊ฐ„ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋„๊ตฌ๋ฅผ ์ œ๊ณต ๊ทธ๋ฆผ 2์— ์ œ์‹œ๋œ 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๋ถ„์„ ๊ฒฐ๊ณผ๋Š” Chronos-2๊ฐ€ TiRex ๋ฐ TimesFM-2.5๋ฅผ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ•จ

GIFT-Eval

์œ„์—์„œ๋ถ€ํ„ฐ a, b

GIFT-Eval์€ 55๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํŒŒ์ƒ๋œ 97๊ฐœ์˜ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ณ ์ฃผํŒŒ ์‹œ๊ณ„์—ด๊ณผ ์žฅ๊ธฐ ์˜ˆ์ธก์— ์ค‘์  ์ด์ „๋ชจ๋ธ์„ ๋‹ค ๋Šฅ๊ฐ€ํ•จ ๋‹ค๋งŒ ์ค‘๋ณต๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•จ(์ผ๋ถ€, ์—„๊ฒฉํ•œ ๊ฒฐ๊ณผ๋Š” 5.4. zeroshot์—์„œ ๋ถ„์„)

Chronos Benchmark II

Chronos Benchmark II๋Š” 27๊ฐœ์˜ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ‰๊ท ์ ์œผ๋กœ 300 ํƒ€์ž„์Šคํ… ๋ฏธ๋งŒ์˜ ์งง์€๊ฒƒ๋„ ํฌํ•จ

์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์„ ํ†ตํ•œ ๊ฐœ์„ 

ICL vs Full Cross Learning

ICL์€ ๊ทธ๋ฃน ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์‹คํ˜„๋˜๋Š” ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ „์ฒด ๊ต์ฐจ ํ•™์Šต์€ ์ด ๋Šฅ๋ ฅ์„ ๊ทน๋Œ€ํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ถ”๋ก ์‹œ ์‚ฌ์šฉํ•˜๋Š” ํŠน์ •ํ•œ ๋ชจ๋“œ์ด๋‹ค

Group IDํ• ๋‹น ๋ฐฉ์‹
  • ICL : ๊ด€๋ จ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ผ๋ฆฌ๋งŒ ๊ฐ™์€ ๊ทธ๋ฃน์œผ๋กœ ํ• ๋‹น
  • ๊ต์ฐจ : ๋ฐฐ์น˜ ์•ˆ์— ์žˆ๋Š” ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋™๋ฆฌํ•œ ๊ทธ๋ฃน์œผ๋กœ ํ• ๋‹นํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜์™€ ์ƒ๊ด€์—‡ใ…‚์ด ์„œ๋กœ์˜ ์ •๋ณด๋ฅผ ๋ฌด์ฐจ๋ณ„์ ์œผ๋กœ ์ฐธ์กฐ

์ด๋ฅผ ์œ„ํ•ด fev-bench๋ฅผ ๋‹ค์Œ์˜ ์„ธ ๋ถ€๋ถ„์ง‘ํ•ฉ์œผ๋กœ ๋ถ„ํ• 

  • ๋‹จ๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹: ๋‹จ์ผ ๋Œ€์ƒ ์‹œ๊ณ„์—ด, ๊ณต๋ณ€๋Ÿ‰ ์—†์Œ (32๊ฐœ ํƒœ์Šคํฌ)
    • ๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋“œ์—์„œ๋Š” ๊ฐ ์‹œ๊ณ„์—ด์„ ๋…๋ฆฝ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋ฉฐ ๊ณต๋ณ€๋Ÿ‰์€ ๋ฌด์‹œ
  • ๋‹ค๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹: ๋‹ค์ค‘ ๋Œ€์ƒ, ๊ณต๋ณ€๋Ÿ‰ ์—†์Œ (26๊ฐœ ํƒœ์Šคํฌ)
  • ๊ณต๋ณ€๋Ÿ‰ ์„œ๋ธŒ์…‹: ํ•˜๋‚˜ ์ด์ƒ์˜ ๊ณผ๊ฑฐ ๋˜๋Š” ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰ ํฌํ•จ (42๊ฐœ ํƒœ์Šคํฌ)
๋‹จ๋ณ€๋Ÿ‰ ํƒœ์Šคํฌ

๊ทธ๋ฆผ 3์„ ๋ณด๋ฉด(๊ฐœ์„ ์ ์„ ๋ˆ„์  ํ‘œ์‹œ), ICL์€ ๋‹จ๋ณ€๋Ÿ‰์—์„œ ์Šคํ‚ฌ ์ ์ˆ˜๋ฅผ ํ–ฅ์ƒ์‹œํ‚ด ์งง์€ ์‹œ๊ณ„์—ด์ธ Chronos Benchmakr2์—์„œ๋„ ๊ฐœ์„ ์ด ๋ณด์ด๋ฉฐ, ์ด๋Š” ์‹œ๊ณ„์—ด์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ๋‹ค๋ฉด ์˜ˆ์ธก์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธ

๋‹ค๋ณ€๋Ÿ‰ ํƒœ์Šคํฌ

๋‹ค๋ณ€๋Ÿ‰ ๋ฌธ์ œ์— ๋Œ€ํ•ด์„œ๋Š” ICL์˜ ํšจ๊ณผ๊ฐ€ ๋‚ฎ์Œ ํฅ๋ฏธ๋กญ๊ฒŒ๋„ ๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋“œ์˜ Chronos-2๋Š” ๋„ค์ดํ‹ฐ๋ธŒ ๋‹ค๋ณ€๋Ÿ‰ ๋ชจ๋ธ์ธ Toto-1.0๋ณด๋‹ค๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์ด๋Š” Takens์˜ ์ž„๋ฒ ๋”ฉ ์ •๋ฆฌ(Takens, 2006)๊ฐ€ ์‹œ์‚ฌํ•˜๋“ฏ, ์ถฉ๋ถ„ํžˆ ๊ธด ๋‹จ๋ณ€๋Ÿ‰ ์ด๋ ฅ์ด ์‹œ์Šคํ…œ์˜ ์ฃผ์š” ๋™์—ญํ•™์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ ์œ ์‚ฌํ•œ ๊ด€์ฐฐ์€ Nie et al.(2023)์—์„œ๋„ ๋ณด๊ณ ๋จ

๊ณต๋ณ€๋Ÿ‰ ํฌํ•จ ํƒœ์Šคํฌ

๊ฐ€์žฅ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ๊ณต๋ณ€๋Ÿ‰์„ ํฌํ•จํ•˜๋Š” ํƒœ์Šคํฌ์—์„œ ๊ด€์ฐฐ๋จ ICL์„ ํ†ตํ•ด Chronos-2๋Š” ๊ณต๋ณ€๋Ÿ‰ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋‹จ๋ณ€๋Ÿ‰ ์ถ”๋ก  ๋Œ€๋น„ ํฐ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ํ™•์ธํ•จ

๋„๋ฉ”์ธ๋ณ„ ์‚ฌ๋ก€ ์—ฐ๊ตฌ

์—๋„ˆ์ง€ ๋ฐ ์†Œ๋งค ๋„๋ฉ”์ธ์—์„œ ๊ณต๋ณ€๋Ÿ‰์„ ํฌํ•จํ•˜๋Š” fev-bench ํƒœ์Šคํฌ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์ถ”๊ฐ€ ๋ถ„์„์„ ์ˆ˜ํ–‰ ๊ฐ๊ฐ 16๊ฐœ(์—๋„ˆ์ง€)์™€ 17๊ฐœ(์†Œ๋งค) ํƒœ์Šคํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ๊ธฐ์ค€์„ ์œผ๋กœ TabPFN-TS์™€ TiRex๋ฅผ ์„ ํƒ

๋…์ผ ์—๋„ˆ์ง€ ๊ฐ€๊ฒฉ ์˜ˆ์ธก ํƒœ์Šคํฌ์™€ Rossmann ์†Œ๋งค ํŒ๋งค ์˜ˆ์ธก ํƒœ์Šคํฌ ์‚ฌ๋ก€ ๋ถ„์„์—์„œ๋„, ICL์€ ๊ณต๋ณ€๋Ÿ‰์„ ํ™œ์šฉํ•ด ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ๊ณผ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ

Abalation Study

๋ชจ๋ธ ํฌ๊ธฐ

28M ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์†Œํ˜• ๋ชจ๋ธ์€ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋งค์šฐ ์ œํ•œ์ ์ธ ๋ฐ˜๋ฉด, ์ถ”๋ก  ์†๋„๋Š” ์•ฝ 2๋ฐฐ ํ–ฅ์ƒ ์ด๋Š” ์ž์›์ด ์ œํ•œ๋œ ํ™˜๊ฒฝ์— ์ ํ•ฉ

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ Chronos-2-Synth๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋œ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‹ค์†Œ ๋‚ฎ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ ์ด๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐ

๊ธด ๋ฌธ๋งฅ ํ›„์† ํ•™์Šต

๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ 2,048์—์„œ 8,192 ํƒ€์ž„์Šคํ…์œผ๋กœ ํ™•์žฅํ•œ ํ›„์† ํ•™์Šต์€ ์„ฑ๋Šฅ์„ ์ „๋ฐ˜์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ํŠนํžˆ ์žฅ์ฃผ๊ธฐ ๊ณ„์ ˆ์„ฑ์ด ๊ฐ•ํ•œ ๊ณ ์ฃผํŒŒ ๋ฐ์ดํ„ฐ์—์„œ ํšจ๊ณผ์ 


ํฌ์ธํŠธ

ํ‰๊ท  ์Šน๋ฅ  ํŠน์ • ๋ชจ๋ธ์ด ๋‹ค๋ฅธ ๋ชจ๋ธ๊ณผ์˜ 1:1๋น„๊ต์—์„œ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ์ด๊ธฐ๋Š”์ง€๋ฅผ ์ธก์ • N๊ฐœ์˜ ๋ชจ๋ธ์ด ์žˆ์„๋•Œ, ๊ฐ ๋ฐ์ดํ„ฐ์…‹(task)๋งˆ๋‹ค ๋ชจ๋ธ A์™€ B์˜ ์˜ˆ์ธก ์˜ค์ฐจ(Loss by SQL)์„ ๋น„๊ตํ•˜์—ฌ ๋” ๋‚ฎ์€ ์˜ค์ฐจ๋ฅผ ๊ธฐ๋กํ•œ ๋ชจ๋ธ์ด ์Šน์ž๋กœ ํŒ๋‹จ. ์ดํ›„ ๋ชจ๋ธ A๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ์ƒ๋Œ€๋กœ ๊ฑฐ๋‘” ์Šน๋ฆฌ ๋น„์œจ์„ ๊ณ„์‹ผํ•˜๊ณ , ์ด๋ฅผ ์ „์ฒด ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ํ‰๊ท  $$

R = 1 + \left(1 - \frac{W}{100}\right)(N - 1)

$$

  • $W$: ํ‰๊ท  ์Šน๋ฅ  (Avg. Win Rate)
  • $N$: ๋น„๊ต ๋Œ€์ƒ ๋ชจ๋ธ์˜ ์ด ๊ฐœ์ˆ˜
  • $R$: ๋ชจ๋ธ์˜ ํ‰๊ท  ์ˆœ์œ„ (Average Rank) ์Šน๋ฅ  100%์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก, ํ•ด๋‹น ๋ชจ๋ธ์ด ๊ฑฐ์˜ ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด๊ธด๋‹ค๋Š” ์˜๋ฏธ

์Šคํ‚ฌ ์ ์ˆ˜ ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๋Šฅ์ด ์–ผ๋งˆ๋‚˜ ๊ฐœ์„ ๋˜์—ˆ๋Š”์ง€ ๋ฐฑ๋ถ„์œจ๋กœ ๋‚˜ํƒ€๋‚ด๋Š”์ง€ํ‘œ ๋ฒ ์ด์Šค๋ผ์ธ : Seasonal Naive ํ‰๊ฐ€ ๋ชจ๋ธ๊ณผ ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์˜ค์ฐจ๋ฅผ ๋น„๊ต, ์˜ค์ฐจ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ฐ์†Œํ–ˆ๋Š”์ง€๋ฅผ ์ธก์ •

$$

S = \left(1 - \frac{Loss_{\text{model}}}{Loss_{\text{base}}}\right) \times 100

$$

  • $S$: ์Šคํ‚ฌ ์ ์ˆ˜ (Skill Score)
  • $Loss_{\text{model}}$: ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ์˜ SQL(Scaled Quantile Loss)
  • $Loss_{\text{base}}$: Seasonal Naive ๋ชจ๋ธ์˜ SQL
    ์˜๋ฏธ
  • $S = 0$: Seasonal Naive์™€ ์„ฑ๋Šฅ์ด ๋™์ผํ•จ
  • $S > 0$: ๋ฒ ์ด์Šค๋ผ์ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ
    • e.g. : $S = 47.3$์€ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ์˜ˆ์ธก ์˜ค์ฐจ๋ฅผ ์•ฝ 47% ๊ฐ์†Œ์‹œ์ผฐ์Œ์„ ์˜๋ฏธ
  • $S < 0$: ๋ฒ ์ด์Šค๋ผ์ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์—ด๋“ฑํ•จ

๋Œ€์ฒด ์ „๋žต (Imputation Strategy) ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ(fev-bench)์—์„œ ๋ฏธ๋ž˜์˜ ์ •๋ณด๊ฐ€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜์–ด ์„ฑ๋Šฅ์ด ์™œ๊ณก๋˜๋Š” ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜(Data Leakage) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ทœ์•ฝ

ํ•ต์‹ฌ ์›๋ฆฌ ๋ชจ๋“  ๋ณ€์ˆ˜๋ฅผ โ€˜๋ฏธ๋ž˜๋ฅผ ์•„๋Š” ์ •๋ณดโ€™์™€ โ€˜๋ชจ๋ฅด๋Š” ์ •๋ณดโ€™๋กœ ์—„๊ฒฉํžˆ ๋ถ„๋ฅ˜ํ•˜์—ฌ, ์•Œ ์ˆ˜ ์—†๋Š” ์ •๋ณด๋Š” ๋ฏธ๋ž˜ ์‹œ์ ์—์„œ ๊ฐ•์ œ๋กœ ์ œ๊ฑฐ(๋งˆ์Šคํ‚น)

์„ธ๋ถ€ ๋ฐฉ๋ฒ•

  1. ๋ณ€์ˆ˜ ๋ถ„๋ฅ˜:
    • ์•Œ๋ ค์ง„ ๊ณต๋ณ€๋Ÿ‰(Known Covariates): ํœด์ผ, ํ”„๋กœ๋ชจ์…˜ ๋“ฑ ๋ฏธ๋ž˜ ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์œ ์ง€
    • ํƒ€๊ฒŸ ๋ฐ ๊ณผ๊ฑฐ ์ „์šฉ ๊ณต๋ณ€๋Ÿ‰(Past-only Covariates): ๋ฏธ๋ž˜ ์‹œ์ ์˜ ๊ฐ’์„ ๋ชจ๋‘ ๊ฒฐ์ธก์น˜(Missing Values, *)๋กœ ์„ค์ •
  2. ๋งˆ์Šคํ‚น ๋ฐ ๋Œ€์ฒด:
    • ์ด์ง„ ๋งˆ์Šคํฌ(): ๊ฐ’์ด ๊ด€์ธก๋œ ์ง€์ ์€ 1, ๊ฒฐ์ธก์น˜๋‚˜ ์˜ˆ์ธก ๋Œ€์ƒ ์ง€์ ์€ 0์œผ๋กœ ํ‘œ์‹œํ•˜๋Š” ์ง€ํ‘œ๋ฅผ ์ƒ์„ฑ
    • 0์œผ๋กœ ๋Œ€์ฒด: ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•œ ํ›„, ๊ฒฐ์ธก์น˜๋กœ ํ‘œ์‹œ๋œ ๋ชจ๋“  ๋ฏธ๋ž˜ ๊ฐ’์€ ๋ชจ๋ธ ์ž…๋ ฅ ์‹œ 0์œผ๋กœ ๋Œ€์ฒด

์˜๋ฏธ

  • ๋ˆ„์ˆ˜ ์ฐจ๋‹จ: ๋ชจ๋ธ์ด ๋ฏธ๋ž˜์˜ ํƒ€๊ฒŸ ์ •๋ณด๋ฅผ ๋ฏธ๋ฆฌ ๋ณด๊ณ  ์˜ˆ์ธกํ•˜๋Š” โ€˜์ปค๋‹โ€™์„ ์›์ฒœ์ ์œผ๋กœ ๋ฐฉ์ง€
  • ๊ณต์ •ํ•œ ๋น„๊ต: ๋ชจ๋“  ๋ชจ๋ธ์ด ๋™์ผํ•˜๊ฒŒ ์ œํ•œ๋œ ์ •๋ณด(๋งˆ์Šคํ‚น๋œ ๋ฐ์ดํ„ฐ)๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธกํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ ์ง„์ •ํ•œ ์ œ๋กœ์ƒท ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์ธก์ •

This post is licensed under CC BY 4.0 by the author.