AI/Time Series

시계열 데이터 기초 용어, 이론, 특징 알아보기

방황하는 데이터불도저 2024. 2. 18. 17:27

시계열 데이터는 하나의 변수에 대해 일정한 시간 간격으로 기록된 데이터이다.
 
다양한 예시로 날씨 온도, 주가의 시간에 따른 변화, 인구성장률 등이 있다. 추가 예시들과 시계열에 대한 자료는 패스트캠퍼스 깃허브에서 살펴볼 수 있다.

시계열 그래프 예시

 
현실에서 시계열 데이터에서는 하나의 변수이외에 여러 변수들이 값에 영향을 미칠 수 있다.

  • 횡단면 데이터(cross-sectional data) : 한 시점에서 여러 변수에 대해 모아둔 데이터
  • 종단면 데이터(longitudinal data) : 한 변수에 대해서 여러 시점에 대해 시계열로 모아둔 데이터
  • 패널 데이터(Panel data) : 횡단면 데이터 + 종단면 데이터를 모아둔 전체 데이터

 
시계열 데이터를 분석할 땐, 횡단면 데이터끼리 i.i.d(independent and identicallly distributed random variables)를 만족한다는 가정하에 진행한다. 이를 데이터가 정상성을 만족한다고 말한다.

  • 정상성(Stationary) : i.i.d를 만족한다. = 자기상관성(Auto-Correlation)을 가지지 않는다.
     ~ 데이터가 정규분포를 따른다 = 평균과 분산이 일정하다 = 특정한 추세가 없이 일정한 변동폭을 가진다.
     ~ white noise (백색잡음) 과정이 대표적인 정상 시계열이다. = 우연변동만을 가진다. 
  • 비정상성(Non-Stationary) : i.i.d를 만족하지 않는다. =자기상관성(Auto-Correlation)을 가진다. 여러 변동성을 가진다.

변동성의 종류

  • 우연변동(e, error, random noise variation) : white noise(백색소음)
  • 추세변동(t, trend variation) : 상승과 하락세
  • 계절변동(s, seasonal variation) : 계절/월마다의 패턴이 있는 경우. (날씨, 공휴일의 영향을 받음)
  • 계절적 추세변동(st, seasonal trend variation) : 계절성과 추세성이 동시에 보이는 경우
  • 반복되는 변동(r, repetitive variation) : 단기적으로(시간, 일, 월 정도의 간격 내에서) 변동폭이 크지않게 일어나는 변동
  • 순환되는 변동(c, cyclic variation) = 주기 변동 : 장기적으로 오르락 내리락하는 경우
정상성과 비정상성 시계열 그래프

 
시계열 분석은 주로 비정상성 데이터를 차분(differencing)과 같은 전처리를 통해 변동성들을 제거하고 정상성을 만족시킨 후에 분석이나 예측을 진행하게 된다. 
 * 도움되는 글 Forcasting : Principles and Practices 참고


다음 글에서는 일반적인 EDA(Exploratory Data Analysis)와 결측치 제거, scaler와 같은 다양한 전처리 방법도 살펴보겠습니다. 또한, 시계열데이터 처리에 필요한 추가적인 처리 방법들에 대해 구체적인 내용을 다루어 보겠습니다.