AI/lectures

[메타코드] 머신러닝 기초를 위한 무료강의 (2) : 머신러닝 기초수학개념, Optimmization 최적화

방황하는 데이터불도저 2022. 9. 18. 22:49

https://youtu.be/oyzIT1g1Z3U

 

 * 편미분 : 원하는 변수에 대해서만 미분하는 것 (원하는 변수 이외에는 상수 취급)

 * 연쇄 법칙 (chain rule) : 상쇄되는 현상을 이용해 새로운 u를 대입하여 미분값을 구하는 방법

 * 손실함수(Loss Function)

   - 머신러닝 모델을 평가하기 위함

   - ex. MSE (Mean Square Error) : 회귀모델의 대표 손실함수

   # 최소 제곱법 (Least Square Method)

     - MSE 방법을 활용하여 풀이할 수 있음

     - 최적의 파라미터를 구하기 위한 방법 중 하나

     - 데이터에 대한 오차를 최소화하도록 함

     - 단순한 선형회귀의 경우, (오차가 존재하지만) 최적의 해를 구할 수 있지만, 복잡한 모델의 경우, 최소 제곱법으로 해결하기 어려움 → 경사하강법(gradient descent)를 활용

 

   # 경사하강법(Gradient Descent)

     - 손실함수에 대한 미분값이 0이 되는 방향으로 파라미터를 업데이트하는 방식

   # 슈도 코드(Pseudo Code)

     - 손실함수에 대한 미분값의 반대 방향으로 파라미터를 업데이트하는 방식

 

 * 학습률(Learning Rate)

   - 파라미터를 업데이트할 때, 미분값 그대로가 아니라 미분값X학습률 값을 활용할 수 있음

   - 학습률이 크면, 더 큰 값의 간격으로 파라미터가 업데이트되고,

   - 학습률이 작으면, 더 작은 값의 간격으로 파라미터가 업데이트됨

 

   # 학습률 스케줄러(Learning Rate Scheduler)

     - 학습률을 큰 값에서 작은 값으로 변화시키면서 모델을 학습하는 방법

     - ex) Multi-step scheduler, Cosine annealing scheduler