시계열 데이터는 하나의 변수에 대해 일정한 시간 간격으로 기록된 데이터이다.
다양한 예시로 날씨 온도, 주가의 시간에 따른 변화, 인구성장률 등이 있다. 추가 예시들과 시계열에 대한 자료는 패스트캠퍼스 깃허브에서 살펴볼 수 있다.
현실에서 시계열 데이터에서는 하나의 변수이외에 여러 변수들이 값에 영향을 미칠 수 있다.
- 횡단면 데이터(cross-sectional data) : 한 시점에서 여러 변수에 대해 모아둔 데이터
- 종단면 데이터(longitudinal data) : 한 변수에 대해서 여러 시점에 대해 시계열로 모아둔 데이터
- 패널 데이터(Panel data) : 횡단면 데이터 + 종단면 데이터를 모아둔 전체 데이터
시계열 데이터를 분석할 땐, 횡단면 데이터끼리 i.i.d(independent and identicallly distributed random variables)를 만족한다는 가정하에 진행한다. 이를 데이터가 정상성을 만족한다고 말한다.
- 정상성(Stationary) : i.i.d를 만족한다. = 자기상관성(Auto-Correlation)을 가지지 않는다.
~ 데이터가 정규분포를 따른다 = 평균과 분산이 일정하다 = 특정한 추세가 없이 일정한 변동폭을 가진다.
~ white noise (백색잡음) 과정이 대표적인 정상 시계열이다. = 우연변동만을 가진다. - 비정상성(Non-Stationary) : i.i.d를 만족하지 않는다. =자기상관성(Auto-Correlation)을 가진다. 여러 변동성을 가진다.
변동성의 종류
- 우연변동(e, error, random noise variation) : white noise(백색소음)
- 추세변동(t, trend variation) : 상승과 하락세
- 계절변동(s, seasonal variation) : 계절/월마다의 패턴이 있는 경우. (날씨, 공휴일의 영향을 받음)
- 계절적 추세변동(st, seasonal trend variation) : 계절성과 추세성이 동시에 보이는 경우
- 반복되는 변동(r, repetitive variation) : 단기적으로(시간, 일, 월 정도의 간격 내에서) 변동폭이 크지않게 일어나는 변동
- 순환되는 변동(c, cyclic variation) = 주기 변동 : 장기적으로 오르락 내리락하는 경우
시계열 분석은 주로 비정상성 데이터를 차분(differencing)과 같은 전처리를 통해 변동성들을 제거하고 정상성을 만족시킨 후에 분석이나 예측을 진행하게 된다.
* 도움되는 글 Forcasting : Principles and Practices 참고
다음 글에서는 일반적인 EDA(Exploratory Data Analysis)와 결측치 제거, scaler와 같은 다양한 전처리 방법도 살펴보겠습니다. 또한, 시계열데이터 처리에 필요한 추가적인 처리 방법들에 대해 구체적인 내용을 다루어 보겠습니다.
'AI > Time Series' 카테고리의 다른 글
시계열 데이터 분석하기 : 데이터의 정상성 (3) | 2024.03.05 |
---|---|
시계열 데이터 EDA(Exploratory Data Analysis) 하기 (2) (0) | 2024.02.22 |
시계열 데이터 EDA(Exploratory Data Analysis) 하기 (1) (0) | 2024.02.20 |