Programming/errors

[CUDA error] out of memory 문제 해결 방법

방황하는 데이터불도저 2022. 11. 10. 12:40

https://discuss.pytorch.kr/t/cuda-out-of-memory/55/3

 

cuda out of memory 오류 해결

원본이라고 생각되는 GitHub - hanyoseob/youtube-cnn-002-pytorch-unet: [CNN PROGRAMMING] 002 - UNET 를 돌려보니 제 머신에서 batch 4에서 약 6G, batch 1에서 4.3G 정도 사용되네요. 올려주신 코드도 4.3G 정도네요. CUDA 버

discuss.pytorch.kr

 

1. 발생 문제

 - CUDA out of memory 에러메시지 출력

 

2. 상황

 - train model이 한번 잘 돌아가고 같은 runtime에 한번 더 train을 돌리면 에러가 발생하면서 GPU에 추가 process가 생기는 것을 발견함

 - 이후로 1) torch.cuda.empty_cache() 실행 후, jupyter lab 재실행,  2) kill -9 PID  (리눅스 프로세스를 죽이는 커맨드)를 시도 해봤지만 해결이 되지 않음

 

3. 임시 솔루션

 - 시간이 지나고 restart를 하면 GPU프로세서가 죽어있음

 - 정상적인 GPU 프로세스에서 train model을 한번 돌린 후, 해당 파일을 restart해서 다시 처음부터 코드 실행해야지만 다시 에러가 발생하지 않음

 

4. 확실한 솔루션

  - 컴퓨터 껐다 켜기...