AI/Time Series 4

시계열 데이터 분석하기 : 데이터의 정상성

시계열 데이터를 분석하는 목적은 아래와 같습니다. 시간에 따른 데이터의 패턴을 파악하기 위함. (ex. 계절성, 추세와 같은 변동성 + 자기상관성 등) 분석된 패턴에 기반한 예측 모형을 통해 Forcasting(시계열 예측)하기 위함. 시계열 분석은 쉽게 말하면 과거의 값의 패턴을 분석해서 미래의 값을 추정하기 위한 것입니다. 이를 위해 가장 기본적인 것은 시계열 데이터가 정상성을 유지해야한다는 것입니다. Why? 왜 정상성을 유지해야하는가?? 왜 잡음만 있는 상태에서 시계열을 예측해야하는가? 먼저 이론적으로는 정상성을 띈다는 말은 시계열 데이터가 시점과 상관없이 일정한 평균과 분산을 가진다는 의미이다. 어떤 시점에 데이터를 측정해도 일정한 변동폭(정규분포를 따르는 잡음)을 가진다는 의미입니다. 이를 ..

AI/Time Series 2024.03.05

시계열 데이터 EDA(Exploratory Data Analysis) 하기 (2)

이전 글에서는 보편적인 EDA 과정에 대해서 간략하게 소개하였습니다. 이번 글에서는 좀 더 구체적으로 시계열 분석 및 예측을 하기 위해서 EDA 과정 중에 어떤 데이터 처리가 필요한지 알아보겠습니다. 결측치 처리 (대치법: imputation) 이전 글에서는 결측치 데이터를 제거하는 방법에 대해서만 다루었습니다. 결측치 제거 이외에도 다양한 방법으로 결측치를 처리할 수 있는 대치법에 대해 설명하겠습니다. 선형 보간법(interpolation) : 앞뒤의 데이터 값에 대해 선형식을 세워 중간의 누락데이터를 채워넣는 방법 그 외의 보간법 : 전체 데이터에 대한 min(최소), max(최대), mean(평균), mode(중앙값) 등을 채워넣는 방법 forward fill(포워드 필) : 누락 직전의 값을 그대..

AI/Time Series 2024.02.22

시계열 데이터 EDA(Exploratory Data Analysis) 하기 (1)

EDA는 데이터를 잘 이해하기 위해서 꼭 필요한 과정으로, 일반적으로 시계열 예측 모델을 생성하기 전에 인사이트를 얻기위해 주로 수행하게 된다. 이번 글에서는 EDA의 전반적인 절차와 구체적인 방법들에 대해 자세히 다루어보려 한다. 보편적인 EDA 과정은 세가지 분류로 나누어볼 수 있다. Data Description (ex. 변수 설명, 통계량 요약 등) Cleaning (ex. 전처리, 결측치 처리 등) Visualization (ex. 그래프 시각화) * 해당 글은 캐글의 Time Series Prediction Tutorial with EDA 를 참고하여 작성되었습니다. 코드와 데이터에 구체적인 사항은 원문을 읽어보시길 바랍니다. 보통 시계열 데이터들은 csv (excel) 파일로 저장된다. 따라..

AI/Time Series 2024.02.20

시계열 데이터 기초 용어, 이론, 특징 알아보기

시계열 데이터는 하나의 변수에 대해 일정한 시간 간격으로 기록된 데이터이다. 다양한 예시로 날씨 온도, 주가의 시간에 따른 변화, 인구성장률 등이 있다. 추가 예시들과 시계열에 대한 자료는 패스트캠퍼스 깃허브에서 살펴볼 수 있다. 현실에서 시계열 데이터에서는 하나의 변수이외에 여러 변수들이 값에 영향을 미칠 수 있다.횡단면 데이터(cross-sectional data) : 한 시점에서 여러 변수에 대해 모아둔 데이터종단면 데이터(longitudinal data) : 한 변수에 대해서 여러 시점에 대해 시계열로 모아둔 데이터패널 데이터(Panel data) : 횡단면 데이터 + 종단면 데이터를 모아둔 전체 데이터 시계열 데이터를 분석할 땐, 횡단면 데이터끼리 i.i.d(independent and iden..

AI/Time Series 2024.02.18