본문 바로가기
논문리뷰/Time series

[논문 리뷰] TSMixer: An All-MLP Architecture for Time Series Forecasting (arXiv, 2023)

by 알푼 2025. 2. 3.
300x250

최근 시계열 연구는 대부분 Transformer 모델을 기반으로 발전하고 있다. 물론 여기서 최근이라는 것은 본 논문이 발표된 2023년 기점이며, 2025년 현재는 Transformer계열과 본 연구에서 제안하는 MLP 계열, 그리고 사전 학습 계열들이 탑 컨퍼런스에서 소개되는 것 같다. 아무튼 본 논문은 선형 모델만으로도 Transformer계열의 모델에 근접하는 성능을 내며, 모델은 훨씬 경량화 된다는 연구이다. 그리고 이 논문을 기점으로 아래 Time-Mixer같은 MLP 계열의 SOTA 모델이 등장하면서 다시금 그 영향력을 생각해볼 만한 모델이다.

2025.01.24 - [논문리뷰/Time series] - [논문 리뷰] TimeMixer: Decomposable Multiscale Mixing For Time Series Forecasting (ICLR, 2024)

 

[논문 리뷰] TimeMixer: Decomposable Multiscale Mixing For Time Series Forecasting (ICLR, 2024)

TimeMixer는 ICLR 2024에서 poster 발표한 연구이다. 전통적으로 시계열에 대한 분해는 decomposition(트렌드, 계절성, 잔차 등으로 분해 하는 방법)과, multiperiodicity(주기에 따른 분해)등으로 구성된다. 하지

ai-onespoon.tistory.com

 

연구 배경

시계열 예측은 실제로 많이 볼 수 있는 문제이며, 지속적인 시간 패턴(추세, 패천)과 교차 변수(변수 간 관계), 보조 특성(이벤트) 등의 측면에서 예측해 볼 수 있다. ARIMA 같은 전통적 모델은 주로 단변량 시계열을 위해 설계되었고 최근 많은 딥러닝 모델, 특히 트랜스포머 기반 모델들은 복잡한 시간 패턴과 교차 변수 의존성(cross-variate dependencies)을 모두 포착할 수 있는 장점이 있다.

하지만 Zeng et al.(2023, https://ojs.aaai.org/index.php/AAAI/article/view/26317)의 연구에 따르면 트랜스포머 기반 모델이 많은 일반적인 예측 벤치마크에서 단순한 단변량 시간 선형 모델보다 성능이 크게 떨어질 수 있음이 밝혀졌다. 특히 시계열이 다른 공변량과 상관관계가 없을 때, 과적합으로 인해 어려움을 겪는 것으로 보인다. 이 발견은 두 가지 중요 질문을 제기한다.

  1. 변수 간 정보가 시계열 예측에 실제로 도움이 되는가?
  2. 변수 간 정보가 유익하지 않을 때, 다변량 모델이 여전히 단변량 모델만큼 잘 수행할 수 있는가?

이 답을 위해 시간 선형 모델의 효과성을 분석하는 것으로 시작한다. 시간 선형 모델의 시간 단계 의존적 특성은 일반적 가정 하에서 시간 패턴을 학습하는 데 좋은 후보가 된다. 따라서 선형 모델의 용량을 점진적으로 증가시킨다.

  1. 비선형성을 가진 시간 선형 모델을 쌓음 (TMix-Only)
  2. 변수 간 피드포워드 레이어 도입 (TSMixer)

결과적으로 TSMixer는 시간과 특성 차원에 걸쳐 MLP를 번갈아 적용하며, 개념적으로 시간 혼합과 특성 혼합 연산에 해당하여 시간 패턴과 교차 변수 정보를 효율적으로 포착한다. 잔차 설계는 TSMixer가 시간 선형 모델의 용량을 유지하면서도 교차 변수 정보를 활용할 수 있도록 한다.

단변량 모델이 다변량 모델보다 성능이 좋았던 데이터셋에서 TSMixer를 평가했다. Ablation study는 시간 선형 모델을 쌓는 것의 효과를 보여주며, 이러한 인기 있는 데이터셋에서 교차 변수 정보가 덜 유용하다는 것을 확인했다. 이는 단변량 모델의 우수성을 보여주나, TSMixer는 최신 단변량 모델과 대등한 성능을 보이고 다른 다변량 모델들을 크게 능가한다. 다변량 모델의 이점을 보여주기 위해, M competition에서 사용된 M5 벤치마크(대규모 소매 데이터셋)에서 추가로 평가했다. 결과적으로 교차 변수 정보가 실제로 상당한 개선을 가져오며, TSMixer가 이 정보를 효과적으로 활용할 수 있음을 보여준다.

또한 정적 특성(static feature)과 미래 시간 변화 특성(future time-varying feature)과 같은 보조 정보를 처리할 수 있도록 확장하는 설계를 제안한다. 서로 다른 유형의 특성들을 같은 형태로 정렬한 다음, 연결된 특성들에 믹서 레이어를 적용하여 그들 사이의 상호작용을 활용한다. 결과적으로 TSMixer는 산업 응용에서 인기 있는 모델들(Amazon SageMaker의 DeepAR, Google Colud Vertex의 TFT 등)을 능가한다.

요약하면,

  • 최신 선형 모델의 효과성 분석 및 그들이 시간 패턴을 학습하는 데 훌륭한 후보임을 밝힘
  • 시간 패턴을 포착하는 선형 모델 능력을 유지하면서도 교차 변수 정보를 활용할 수 있는 TSMixer 제안
  • 일반적 장기 예측 벤치마크에서 다변량 모델 평가할 때의 잠재적 위험 지적
  • TSMixer가 일반적 벤치마크에서 단변량 모델과 대등한 성능을 보이는 최초의 다변량 모델이며, 교차 변수 정보가 중요한 대규모 산업 응용에서 최고 수준의 성능을 달성

 

시계열 예측을 위한 선형 모델링

 

Zeng (2023) 등은 트랜스포머와 같은 더 복잡한 sequenctial 모델들보다 선형 모델의 우수성을 경험적으로 입증했다. 선형 모델은 RNN과 트랜스포머에 없는 특성을 가지고 있는데, 단변량 시계열 데이터의 시간 의존성을 학습하기 위한 적절한 표현 능력을 가지고 있다.

 

Notation

$X\in\mathbb{R}^{L\times C_{x}}$ : 과거 관측치를 나타내며 $L$은 관측 길이, $C_x$는 변수를 의미

$Y\in\mathbb{R}^{T\times C_{y}}$ : 예측값을 나타내며 $T$는 예측 길이, $C_y$는 예측하고 하는 시계열 수 $(C_y \leq C_x)$

다음 $T$단계 값을 예측하기 위한 선형 모델의 파라미터는 $A\in\mathbb{R}^{T\times C_x}, b\in\mathbb{R}^{T\times C_x}$

$\hat{Y} = AX\oplus b\in\mathbb{R}^{T \times C_x}$

여기서 $\oplus$는 column-wise 덧셈을 의미한다.

 

기존 모델과의 차이점

Zeng (2023, https://ojs.aaai.org/index.php/AAAI/article/view/26317), Nie (2023, https://arxiv.org/abs/2211.14730) 의 논의에 따라, 우리의 선형 모델 분석은 이전의 딥러닝 모델들이 왜 데이터에 과적합하는 경향이 있는지에 대해 더 깊은 통찰을 제공한다. 선형 모델은 입력 시퀀스의 각 시간 단계에 대한 매핑의 가중치가 고정되어 있는 독특한 특성을 가지고 있다. 이러한 “Time step dependent”는 recurrent나 어텐션 기반의 아키텍처 처럼 입력 시퀀스에 대한 가중치가 “data dependent” 인 와 대조 되는 부분이다.

아마 위 그림은 시간 단계에 대한 가중치가 더 직관적이다는 것을 나타내는 것 같다.

시간 단계 의존적 선형 모델은 단순하지만 시간적 패턴을 모델링하는데 매우 효과적임이 입증 되었다. 반면, 순환 또는 어텐션 아키텍처는 높은 표현 능력이 있으나, 시간 단계 독립성을 달성하는 것이 어렵다.

 

분석의 한계

분석의 목적은 단변량 시나리오에서 선형 모델의 효과성을 이해하는 것이다. 그러나 실제 세계의 데이터는 높은 변동성을 가질 수 있고, 패턴이 비주기적이고 비평활할 수 있어 과거 시간 패턴에만 의존하는 것이 최적이 아닐 수 있다. 더 복잡한 케이스는 논문의 범위를 벗어나고, 이 논문에서는 선형 모델을 더 강력하게 만들고 다변량 정보를 효과적으로 활용하는 것의 중요성을 보여준다.

 

728x90

 

TSMixer 구조

시간 의존성을 포착하는데 선형 모델이 강력한 후보가 될 수 있다는 발견을 확장하여, 초기에 비선형성을 가진 선형 모델을 쌓아 다층 퍼셉트론(MLP)을 형성하는 자연스러운 개선을 제안한다. 효율적 학습을 위해 정규화와 잔차 연결과 같은 일반적인 딥러닝 기술이 적용된다. 그러나 이 구조는 cross-variate 정보를 고려하지 않는다. 이런 corss-variate 정보를 잘 활용하기 위해, 시간 도메인과 feature 도메인에서 MLP를 번갈아 적용하는 것을 제안한다. 시간 도메인 MLP는 모든 feature에 걸쳐 공유되고, feature 도메인 MLP는 모든 시간 단계에 걸쳐 공유된다. 이 결과 모델은 컴퓨터 비전의 MLP-Mixer 구조와 유사하며, 시간 도메인과 feature 도메인 연산은 각각 시간 혼합과 feature 혼합 연산을 나타낸다. 따라서 이 제안된 구조를 시계열 믹서(TSMixer) 라고 명명한다.

이 두 연산 사이 교차 설계는 계산 복잡성과 모델 크기를 제한하면서 시간적 의존성과 cross-varite 정보를 효율적으로 활용한다. 이는 TSMixer가 긴 룩백 윈도우를 사용할 수 있게 하며, fully connected MLP를 사용할 때, O(LC)가 아닌 O(L+C)로만 매개변수 증가를 유지한다. (O는 Big O 표기, L는 룩백 윈도우, C는 변수) 또한 시간 혼합만을 사용하는 TSMixer의 단순화된 변형인 TMix-Only도 고려한다. 이는 각 변량에 걸쳐 공유되는 잔차 MLP로 구성된다.

다변량 시계열 예측을 위한 TSMixer

다변량 시계열 예측에서 과거 데이터만 사용 가능한 경우, TSMixer는 시간과 feature 도메인에서 MLP를 번갈아 적용한다. TSMixer의 구성 요소는 다음과 같다.

  • Time-mixing MLP: Time-mixing MLP는 시간적 패턴을 모델링 한다. Fully connected 레이어 뒤에 활성 함수와 dropout이 따라온다. Input을 시간 도메인을 따라 fully-connected 레이어에 적용하고, feature들을 공유하기 위해서 transpose한다. 앞서 보여진 것처럼 복잡한 시간적 패턴을 학습하는데 강력한 모델인 Single layer MLP를 이용한다.
  • Feature-mixing MLP: Feature-mixing MLP는 시간 단계들에 의해 공유되며, 공변량 정보를 활용하는 역할을 한다. 트랜스포머 기반 모델과 유사하게, 복잡한 feature 변환을 학습하기 위해 2계층 MLP를 고려한다.
  • Temporal Projection: Temporal projection은 Zeng(2023)의 선형 모델과 동일하며, 시간 도메인에 적용되는 fully-connected layer이다. 시간적 패턴을 학습하고, 시계열을 원래 입력 길이 L에서 목표 예측 길이 T로 매핑한다.
  • Residual Connections: 각 time-mixing과 feature-mixing 사이에 잔차 연결을 적용한다. 이 연결들은 모델이 더 깊은 구조를 더 효율적으로 학습할 수 있게 하고, 불필요한 time-mixing과 feature-mixing을 효과적으로 무시할 수 있게 한다.
  • Normalization: 배치 정규화와 layer 정규화 사이 선호도는 작업에 따라 다르지만, Nie (2023)은 일반적인 시계열 데이터셋에서 배치 정규화의 이점을 보여준다. Time-mixing과 feature-mixing 모두에 2D 정규화를 수행한다.

TSMixer는 트랜스포머 모델과 비교했을 때, 매우 단순하지만 대표적 벤치마크에서 경쟁력을 유지한다.

 

TSMixer와 MLP-Mixer의 차이점

TEMixer가 MLP-Mixer와 구조적 유사성은 공유지만, 독특한 정규화 접근법으로 이어졌다. TSMixer에서는 두 차원이 feature와 시간 단계를 나타내며, 이는 MLP-Mixer의 특징과 패치와는 다르다. 결과적으로, 예측에서 시간적 패턴 활용의 중요성을 발견했기 때문에 feature와 시간 단계 전반에 걸쳐 스케일을 유지하기 위해 2D 정규화를 적용한다.

 

결과

TSMixer를 7개 인기 있는 다변량 장기 예측 벤치마크(ETTh1, ETTh2, ETTm1, ETTm2, Weather, Electricity, Traffic)와 대규모 실제 소매 데이터셋인 M5(Makridakis et al., 20222)에서 평가한다. 장기 예측 데이터셋은 보조 정보 없는 다변량 시계열이며, M5는 월마트 품목 판매량 예측 과제를 위한 것으로 30,490개의 시계열을 포함한다. 매장 위치와 같은 정적 특성과 캠페인 정보 같은 시간에 따라 변하는 특성을 모두 포함한다. 이런 복잡성으로 M5는 교차 변량 정보와 보조 특성의 잠재적 이점을 탐구하는 데 더 도전적인 벤치마크가 된다.

 

TMix-Only

선형 모델과 비교하여, TMix-Only는 교차 변량 정보를 고려하지 않더라도 stacking이 유익함을 보여준다. 더욱이 TMix-Only는 최신 기술인 PatchTST와 비슷한 수준의 성능을 보여주며, 이는 간단한 시간 혼합 층이 더 복잡한 어텐션 메터니즘과 대등한 수준임을 시사한다.

TSMixer

TSMixer가 TMix-Only 및 PatchTST와 유사한 성능을 보인다는 것을 나타낸다. 최신 다변량 모델들을 크게 능가하고, 최신 단변량 모델인 PatchTST와 경쟁력 있는 성능을 달성한다. TSMixer는 단변량 모델들과 경쟁력 있는 유인한 다변량 모델이며, 다른 모든 다변량 모델들은 단변량 모델들보다 현저히 낮은 성능을 보인다. TSMixer는 TMix-Only의 성능과도 비슷한데, 이는 이런 벤치마크에서 feature 혼합이 유익하지 않다는 것을 의미한다. 이 관찰은 Zeng(2023), Nie(2023)의 연구 결과와 일치하며, 이 결과들은 이러한 데이터셋에서는 교차 변량 정보가 덜 중요할 수 있음을 시사한다.

Effect of lookback window length

선형 모델의 성능이 룩백 윈도우 크기가 96에서 336으로 증가함에 따라 크게 향상되며, 720에서 수렴점에 도달한다. → 선형 모델의 성능이 룩백 윈도우 크기에 의존한다는 것을 증명

TSMixer는 윈도우 크기가 336 또는 512로 설정되었을 때 최상의 성능을 달성한다.

많은 다변량 트랜스포머 기반 모델들은 192보다 큰 룩백 윈도우 크기에서 이점을 얻지 못하고 과적합 되기 쉽다.

 

댓글