https://discuss.pytorch.kr/t/cuda-out-of-memory/55/3
1. 발생 문제
- CUDA out of memory 에러메시지 출력
2. 상황
- train model이 한번 잘 돌아가고 같은 runtime에 한번 더 train을 돌리면 에러가 발생하면서 GPU에 추가 process가 생기는 것을 발견함
- 이후로 1) torch.cuda.empty_cache() 실행 후, jupyter lab 재실행, 2) kill -9 PID (리눅스 프로세스를 죽이는 커맨드)를 시도 해봤지만 해결이 되지 않음
3. 임시 솔루션
- 시간이 지나고 restart를 하면 GPU프로세서가 죽어있음
- 정상적인 GPU 프로세스에서 train model을 한번 돌린 후, 해당 파일을 restart해서 다시 처음부터 코드 실행해야지만 다시 에러가 발생하지 않음
4. 확실한 솔루션
- 컴퓨터 껐다 켜기...