시계열 3

시계열 데이터 분석하기 : 데이터의 정상성

시계열 데이터를 분석하는 목적은 아래와 같습니다. 시간에 따른 데이터의 패턴을 파악하기 위함. (ex. 계절성, 추세와 같은 변동성 + 자기상관성 등) 분석된 패턴에 기반한 예측 모형을 통해 Forcasting(시계열 예측)하기 위함. 시계열 분석은 쉽게 말하면 과거의 값의 패턴을 분석해서 미래의 값을 추정하기 위한 것입니다. 이를 위해 가장 기본적인 것은 시계열 데이터가 정상성을 유지해야한다는 것입니다. Why? 왜 정상성을 유지해야하는가?? 왜 잡음만 있는 상태에서 시계열을 예측해야하는가? 먼저 이론적으로는 정상성을 띈다는 말은 시계열 데이터가 시점과 상관없이 일정한 평균과 분산을 가진다는 의미이다. 어떤 시점에 데이터를 측정해도 일정한 변동폭(정규분포를 따르는 잡음)을 가진다는 의미입니다. 이를 ..

AI/Time Series 2024.03.05

시계열 데이터 EDA(Exploratory Data Analysis) 하기 (2)

이전 글에서는 보편적인 EDA 과정에 대해서 간략하게 소개하였습니다. 이번 글에서는 좀 더 구체적으로 시계열 분석 및 예측을 하기 위해서 EDA 과정 중에 어떤 데이터 처리가 필요한지 알아보겠습니다. 결측치 처리 (대치법: imputation) 이전 글에서는 결측치 데이터를 제거하는 방법에 대해서만 다루었습니다. 결측치 제거 이외에도 다양한 방법으로 결측치를 처리할 수 있는 대치법에 대해 설명하겠습니다. 선형 보간법(interpolation) : 앞뒤의 데이터 값에 대해 선형식을 세워 중간의 누락데이터를 채워넣는 방법 그 외의 보간법 : 전체 데이터에 대한 min(최소), max(최대), mean(평균), mode(중앙값) 등을 채워넣는 방법 forward fill(포워드 필) : 누락 직전의 값을 그대..

AI/Time Series 2024.02.22

시계열 데이터 기초 용어, 이론, 특징 알아보기

시계열 데이터는 하나의 변수에 대해 일정한 시간 간격으로 기록된 데이터이다. 다양한 예시로 날씨 온도, 주가의 시간에 따른 변화, 인구성장률 등이 있다. 추가 예시들과 시계열에 대한 자료는 패스트캠퍼스 깃허브에서 살펴볼 수 있다. 현실에서 시계열 데이터에서는 하나의 변수이외에 여러 변수들이 값에 영향을 미칠 수 있다.횡단면 데이터(cross-sectional data) : 한 시점에서 여러 변수에 대해 모아둔 데이터종단면 데이터(longitudinal data) : 한 변수에 대해서 여러 시점에 대해 시계열로 모아둔 데이터패널 데이터(Panel data) : 횡단면 데이터 + 종단면 데이터를 모아둔 전체 데이터 시계열 데이터를 분석할 땐, 횡단면 데이터끼리 i.i.d(independent and iden..

AI/Time Series 2024.02.18