데이터 6

시계열 데이터 EDA(Exploratory Data Analysis) 하기 (2)

이전 글에서는 보편적인 EDA 과정에 대해서 간략하게 소개하였습니다. 이번 글에서는 좀 더 구체적으로 시계열 분석 및 예측을 하기 위해서 EDA 과정 중에 어떤 데이터 처리가 필요한지 알아보겠습니다. 결측치 처리 (대치법: imputation) 이전 글에서는 결측치 데이터를 제거하는 방법에 대해서만 다루었습니다. 결측치 제거 이외에도 다양한 방법으로 결측치를 처리할 수 있는 대치법에 대해 설명하겠습니다. 선형 보간법(interpolation) : 앞뒤의 데이터 값에 대해 선형식을 세워 중간의 누락데이터를 채워넣는 방법 그 외의 보간법 : 전체 데이터에 대한 min(최소), max(최대), mean(평균), mode(중앙값) 등을 채워넣는 방법 forward fill(포워드 필) : 누락 직전의 값을 그대..

AI/Time Series 2024.02.22

시계열 데이터 EDA(Exploratory Data Analysis) 하기 (1)

EDA는 데이터를 잘 이해하기 위해서 꼭 필요한 과정으로, 일반적으로 시계열 예측 모델을 생성하기 전에 인사이트를 얻기위해 주로 수행하게 된다. 이번 글에서는 EDA의 전반적인 절차와 구체적인 방법들에 대해 자세히 다루어보려 한다. 보편적인 EDA 과정은 세가지 분류로 나누어볼 수 있다. Data Description (ex. 변수 설명, 통계량 요약 등) Cleaning (ex. 전처리, 결측치 처리 등) Visualization (ex. 그래프 시각화) * 해당 글은 캐글의 Time Series Prediction Tutorial with EDA 를 참고하여 작성되었습니다. 코드와 데이터에 구체적인 사항은 원문을 읽어보시길 바랍니다. 보통 시계열 데이터들은 csv (excel) 파일로 저장된다. 따라..

AI/Time Series 2024.02.20

[Linux 리눅스] 대용량 이미지 데이터셋 GUI에서 빠르게 탐색하는 방법: gthumb

딥러닝 학습 시에 대용량 데이터셋은 필수적이다. 이 데이터셋의 모든 이미지를 물론 모두 확인할 일은 없겠지만(할 수도 없겠지만), 그래도 GUI환경에서 이미지 썸네일 리스트들을 확인하고, 몇가지 랜덤한 이미지에 대해 보고싶을 수도 있다. 하지만 일반적인 리눅스 시스템이 깔려있는 컴퓨터로 파일탐색기를 열고 이미지가 잔뜩 들어있는 폴더에 접근한다면,,,,(망한다ㅜ) 컴퓨터가 멈추고, 계속 로딩된 상태로 오래 유지되는 경우가 많을 것이다. 로딩이 된다고 해도 굉장히 느리고, 조금만 잘못하면 금방 렉이 걸려버린다. 그래서 우리는 다른 GUI 파일탐색기가 필요하다. 그는 바로 gthumb이라는 프로그램이다. 사용방법은 간단하다. 먼저 아래의 커맨드로 gthumb을 설치해준다. sudo apt install gth..

Programming/linux 2023.12.21

aihubshell API key로 데이터 다운로드 받기

서버는 대체로 리눅스기반으로 많이 구축되어있다. 터미널을 자주 사용하면서 다양한 작업들을 cli환경에서 하게되는데, 데이터셋도 command를 실행해서 로컬 또는 서버로 파일을 다운로드 받을 수 있다. AIHUB는 데이터 공개 초기에 윈도우, 우분투 18버전에서만 특정 프로그램을 설치하여, 그 프로그램을 통해 원하는 데이터를 다운로드 받을 수 있었다. 우분투 20버전을 쓰는 나로써는 굉장히 불편했었는데, 이제는 aihubshell이라는 것이 생겨서, 편하게 terminal에서 데이터를 다운로드 받을 수 있게 되어, [Linux, Ubuntu 20.04버전]을 쓰는 환경을 기준으로 어떻게 사용하는지 정리해보려한다. 1. aihubshell 다운로드curl -o "aihubshell" https://api...

Programming/linux 2023.12.14

다양한 관점에 따른 변수의 종류 모음. (수학, 데이터)

1. 인과관계(기능)에 따른 변수 독립 변수 (Independent Variable) : 다른 변수에 영향을 주는 변수 원인 변수 / 요인 변수 / 실험 요인 (Factor) : 종속 변수에 원인을 야기하는 독립 변수 예측 변수 (Predictor Variable) / 설명 변수 (Explanatory Variable) / 회귀 변수 (Regressor) / 자극 변수 (Stimulus) / 외생 변수 (Exogenous Variable) / 통제 변수 (Control Variable) / 공변 변수 (Covariate) : 예측에 이용되는 변수로 변화를 예측해보려고, 변화시켜보는 변수. (독립 변수) 종속 변수 (Dependent Variable) : 다른 변수로부터 영향을 받는 변수 반응 변수 (Re..

AI/Fundamental 2023.10.16

[머신러닝] 학습, 검증, 테스트 데이터 쪼개는 법 : random_split PyTorch), train_test_split(Scikit-learn)

1. Pytorch * MNIST데이터를 예시로 불러와 train 데이터셋을 train과 validation 데이터셋으로 나누어 보는 작업 - 데이터셋을 쪼갤 때, torch.utils.data.random_split 모듈을 활용하면 된다. - random_split(pytorch에서 불러온 데이터셋 변수, [len(train_dataset), len(validation_dataset)]) 로 간단하게 분리가 가능하고, 데이터를 쪼개면서 데이터를 뒤섞고 싶을 때, generator 옵션을 사용하면 된다. (python 내장 함수인 help를 활용하여 random_split에 파라미터들을 미리 확인할 수 있다.) # 예시 코드 train_dataset = MNIST(os.getcwd(), download=..

AI/Fundamental 2022.08.26