* 편미분 : 원하는 변수에 대해서만 미분하는 것 (원하는 변수 이외에는 상수 취급)
* 연쇄 법칙 (chain rule) : 상쇄되는 현상을 이용해 새로운 u를 대입하여 미분값을 구하는 방법
* 손실함수(Loss Function)
- 머신러닝 모델을 평가하기 위함
- ex. MSE (Mean Square Error) : 회귀모델의 대표 손실함수
# 최소 제곱법 (Least Square Method)
- MSE 방법을 활용하여 풀이할 수 있음
- 최적의 파라미터를 구하기 위한 방법 중 하나
- 데이터에 대한 오차를 최소화하도록 함
- 단순한 선형회귀의 경우, (오차가 존재하지만) 최적의 해를 구할 수 있지만, 복잡한 모델의 경우, 최소 제곱법으로 해결하기 어려움 → 경사하강법(gradient descent)를 활용
# 경사하강법(Gradient Descent)
- 손실함수에 대한 미분값이 0이 되는 방향으로 파라미터를 업데이트하는 방식
# 슈도 코드(Pseudo Code)
- 손실함수에 대한 미분값의 반대 방향으로 파라미터를 업데이트하는 방식
* 학습률(Learning Rate)
- 파라미터를 업데이트할 때, 미분값 그대로가 아니라 미분값X학습률 값을 활용할 수 있음
- 학습률이 크면, 더 큰 값의 간격으로 파라미터가 업데이트되고,
- 학습률이 작으면, 더 작은 값의 간격으로 파라미터가 업데이트됨
# 학습률 스케줄러(Learning Rate Scheduler)
- 학습률을 큰 값에서 작은 값으로 변화시키면서 모델을 학습하는 방법
- ex) Multi-step scheduler, Cosine annealing scheduler