본문 바로가기
논문리뷰/Time series

[논문 리뷰] Image-based time series forecasting: A deep convolutional neural network approach (Neural Networks, 2023)

by 알푼 2025. 1. 2.
300x250

시계열 예측에 이미지를 활용한 방법은 없을까 찾다가 보게 된 논문이다. 시계열 데이터를 전통적인 수리적 기법의 인풋으로 넣는 것이 아닌, 이미지 형태의 시각적 표현을 고려한다. 이런 심플한 방법이 기존에 왜 없었을까 의문이였는데 아무리 찾아보아도 이와 유사한 연구는 이 논문과 ViTST (NeurIPS, 2023)정도 밖에 찾지 못했다. 다만 단변량 예측이라는 부분이 조금 아쉬운 부분이다.

 

Introduction

컴퓨터 비전 분야에서 ML과 DL은 이미지 분류, segmentation, object detection, 노이즈 제거, 이미지 생성 등 다양한 패턴 인식 및 콘텐츠 이해 작업에 성공적으로 적용되었다. 특히 CNN 구조는 이미지 인식 성능을 지속적으로 향상시켰다. 대부분의 최신 DL 시계열 예측 방법은 RNN 기반이며, 시계열 데이터의 수치 표현을 입력으로 사용한다. CNN을 시계열 예측에 사용할 대도 주로 1D 수치 벡터로 처리하며, 2D 이미지로 처리하는 경우는 드물다. 일부 연구는 CNN을 직접 예측 생성이 아닌 분류기나 메타 학습기로 사용한다.

CNN과 2D 입력은 주로 특정 예측 응용 분야에서만 사용되었다. 상관관계가 없는 시계열 집합을 예측할 때는 기존의 2D 입력 구성 방법을 적용하기 어려워 1D CNN이 더 적합하다. 하지만 이미지를 입력으로 사용하여 대규모의 상관관계 없는 시계열을 직접 예측하는 연구는 아직 없었다. 이미지 기반 시계열 예측은 시각적 표현을 통한 새로운 패턴을 추출할 수 있고, 인간의 정보 처리 방식과 유사하며 컴퓨터 비전 분야의 발전을 활용할 수 있다. 본 연구는 ForCNN이라는 이미지 기반 DL 접근 방식을 소개한다.

 

방법론

두 단계로 구성되는데,

1) 1D numeric 벡터를 적절하게 2D 이미지로 변환하는 작업과,

2) 이미지를 DL 모델로 학습하는 과정으로 이루어진다.

 

Time series pre-processing

먼저 시계열 데이터를 w개의 관측치를 가진 window로 나눈다. Min-max 정규화를 통해 값들을 [0, 1] 범위로 조정한다. 입력 값은 항상 [0, 1] 범위를 갖지만, 출력은 반드시 그렇지 않을 수 있다. 시각화는 간단한 선 그래프로 수행되는데, x축은 시간, y축은 정규화된 관측값을 나타낸다. 시계열 패턴을 더 명확하게 보이게 하기 위해서 선의 두께를 두껍게 하고, 축이나 범례 같은 다른 시각적 요소는 이미지에서 제외한다. 이미지는 흑백 단색 색상 체계를 사용하고, 각 픽셀은 8비트 정수 값으로 표현되어 컬러 이미지에 비해 메모리 요구사항이 크게 줄어든다. 모든 이미지는 64 x 64 픽셀로 크기가 조정된다.

 

모델 구조

앞의 전처리 결과물은 ForCNN의 입력으로 제공된다. 전체 네트워크는 두 개의 모듈로 구성된다. (Encoder와 Regressor)

 

인코더는 입력 이미지 X를 latent 벡터 W로 변환한다. 이 때, 2D 합성곱 레이어를 사용하며, 이미지 형태의 시계열 데이터를 효과적으로 처리하여 중요한 특징을 추출하는 단계라고 할 수 있다.

ResNet에서 영감을 받은 깊은 합성곱 아키텍처를 사용한다. 2D 합성곱을 사용하며, 3x3 필터와 제로 패딩을 적용한다. Batch Norm과 ReLU를 사용하고, 각 블록은 3개의 합성곱 층을 가진다.

 

Regressor는 인코더가 생성한 임베딩 벡터 W를 바탕으로 요청된 예측 F를 생성한다. FC 비선형 은닉층과 선형 출력층으로 구성된 단순한 신경망이다. 은닉층에서는 ReLU 함수를 활성 함수로 사용하며, 모든 예측 기간에 대한 예측을 동시에 생성한다.

 

ForCNN은 입력 이미지의 특성, 즉 단일 채널의 상대적으로 단순한 이미지에 맞춰 설계 되었다.(물론 약간의 fine-tune 가능) 예를 들어, 흑백 선 그래프가 직관적이고 계산 효율적이지만 recurrence plot이나 color 그래프로 대체할 수 있다. (Forecasting with time series imaging, 2020)

 

여기서 인코더는 결국 이미지의 feature를 추출하기 위함인데, 이 feature를 더 잘 추출하기 위해 다른 신경망으로 대체할 수 있다. ForCNN-SD를 변형하여(아마 feature 추출 모델 변형) ResNet-50 기반과 VGG-19 기반으로 하여 ForCNN-ResNet과 ForCNN-VGG로 명명하였고, 회색조 이미지를 3번 반복하여 3채널 컬러 이미지 입력 형식에 맞춘다. ImageNet 데이터셋에 사전 학습된 가중치를 인코더 모듈 초기화에 사용한다. Regressor 모듈은 무작위 가중치로 초기화된다.

 

실험

데이터셋

  • M4 경연대회의 23,000개 연간 시계열
    • 예측 기간 h를 6년으로 설정 (출력 노드 수)
  • M3의 1,428개 월간 시계열, 다양한 도메인(둘 다 금융, 미시, 거시, 산업, 인구통계)
    • h는 18개월

 

최근 시계열 예측의 대부분은 정규화된 상태에서 MSE와 MAE를 보는데 이 논문은 sMAPE와 MASE를 보았고 정규화 하지 않은 수준에서 metric을 계산한 것 같다. 또한 단변량 예측에 제한되었다는 부분과 비교 모델이 꽤나 오래전 모델이라는 것이 아쉬운 부분이다.

댓글