AI/lectures

[메타코드] 머신러닝 기초를 위한 무료강의 (3) : 편차와 분산 (오차/에러), 오버피팅(Overfitting), 언더피팅(Underfitting)

방황하는 데이터불도저 2022. 9. 18. 23:38

https://youtu.be/oyzIT1g1Z3U

 

 * 간단한 모델은 파라미터 수가 낮고, 복잡한 모델은 파라미터 수가 많다.

 

 * 예측값에 대한 MSE는 예측값에 대한 분산(Variance)과 편차(Bias)의 합이다.

 

  - 편향과 분산은 모델을 평가할 때 아주 중요한 요소이다.

 

  # 편차/편향(Bias) : [실제값]과 [예측값(들의 평균값)]의 차이

    # 분산(Variance) : 예측값들간의 차이 ([예측값1]과 또 다른 [예측값2,,,,n]의 차이들)

    # Trade-off : 분산과 편향이 모두 낮은 지점

      - 이 순간의 파라미터값을 찾는 것이 머신러닝의 목표

모델의 복잡도와 손실의 크기에 따라서 변화하는 편향과 분산 그래프

 

편향과 분산의 크기에 따라 달라지는 예측값 분포

 

 * 오버피팅 (Overfitting)

   - 데이터수는 부족하고 모델은 복잡할 때에 발생할 수 있는 과적합 현상

   - 여러 예측값들 사이의 차이 = 분산(Variance)이 큰 경우

   - 학습데이터에 대해서는 매우 정확도가 높게 잘 맞추지만

     새로운 데이터(ex. 평가 데이터)에 대해서는 잘 맞추지 못하여 모델 정확도가 떨어지는 경우

   - 데이터로 인해 예측 정확도가 낮아지는 경우

 

 * 언더피팅 (Underfitting)

   - 데이터수는 충분하지만 모델이 간단할 때에 모델이 데이터를 충분히 학습하지 못하는 현상

   - 실제값(label)과 예측값(들의 평균값) 사이의 차이가 큰 경우 = 편향(Bias)가 큰 경우

   - 데이터보다 모델 자체의 예측 정확도가 낮은 경우

 

정리하자면,

  •  모델 간단 → 언더피팅될 가능성 높음 → 편향은 높고, 분산은 낮다.
  •  모델 복잡 → 오버피팅될 가능성 높음 → 편향은 낮지만, 분산은 높다.