[CUDA error] out of memory 문제 해결 방법

Programming/errors

[CUDA error] out of memory 문제 해결 방법

방황하는 데이터불도저 2022. 11. 10. 12:40

https://discuss.pytorch.kr/t/cuda-out-of-memory/55/3

cuda out of memory 오류 해결

원본이라고 생각되는 GitHub - hanyoseob/youtube-cnn-002-pytorch-unet: [CNN PROGRAMMING] 002 - UNET 를 돌려보니 제 머신에서 batch 4에서 약 6G, batch 1에서 4.3G 정도 사용되네요. 올려주신 코드도 4.3G 정도네요. CUDA 버

discuss.pytorch.kr

1. 발생 문제

- CUDA out of memory 에러메시지 출력

2. 상황

- train model이 한번 잘 돌아가고 같은 runtime에 한번 더 train을 돌리면 에러가 발생하면서 GPU에 추가 process가 생기는 것을 발견함

- 이후로 1) torch.cuda.empty_cache() 실행 후, jupyter lab 재실행, 2) kill -9 PID (리눅스 프로세스를 죽이는 커맨드)를 시도 해봤지만 해결이 되지 않음

3. 임시 솔루션

- 시간이 지나고 restart를 하면 GPU프로세서가 죽어있음

- 정상적인 GPU 프로세스에서 train model을 한번 돌린 후, 해당 파일을 restart해서 다시 처음부터 코드 실행해야지만 다시 에러가 발생하지 않음

4. 확실한 솔루션

- 컴퓨터 껐다 켜기...

'Programming > errors' 카테고리의 다른 글

파이썬(python) OpenCV(4.5.4) :-1: error: (-5:Bad argument) in function 'rectangle' (0)	2023.01.30
[CUDA error] CUDA initialization: Unexpected error from cudaGetDeviceCount() (0)	2022.11.10
[CUDA error] : CUBLAS_STATUS_ALLOC_FAILED (0)	2022.11.10
TqdmWarning: IProgress not found. 에러 해결방법 (Anaconda, Jupyter Lab / Notebook) (0)	2022.10.21
Jupyter lab 실행 시, 에러(Error) 설명 - NumExpr detected 12 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8. (0)	2022.09.07

현재글[CUDA error] out of memory 문제 해결 방법

주니어입니다. 겸손하게 불도저처럼 나아가겠습니다☄️

인공지능, Linux, 모두를위한선형대수학, linearalgebra, 신경망모델, 선형대수학, 벡터, 텐서플로우, 파이썬, 선형대수, Python, 부스트코스, tensor, 머신러닝, TensorFlow, 딥러닝, 데이터, 리눅스, 칸아카데미, ML,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI와 데이터의 모든 것