선형 회귀를 통한 분류모델
- 예를들어 [개=1, 고양이=2, 사자=3, 얼룩말=4]와 같은 방식으로 라벨링(A)을 했을 때와 [개=1, 고양이=2,,,,,,,,, 사자=99, 얼룩말=100]이라는 라벨링(B)을 했을 때를 비교해보자
- A방식으로 모델을 학습시키고, 나온 결과에 대해 손실함수(ex. MSE)를 계산했을 때는 그 값이 매우 작을 수 있다. 하지만 B처럼 똑같은 클래스에 다른 라벨링을 해주면 손실값이 매우 커질 수 있다.
- 따라서 다른 손실함수나 선형회귀가 아닌 다른 모델이 필요하다.
* 시그모이드 함수 (Sigmoid Function)
- x가 0이하일 땐 y값이 0.5이하, 0이상일 땐 0.5이상이 되게 하는 활성화 함수
로지스틱 회귀를 통한 분류모델
- 오즈(odds) : 가능성 (성공할 확률 / 실패할 확률)로 계산
- 로짓 변환(logit) : 오즈에 로그를 취한 함수 형태 = log(odds)
- 로지스틱 함수(logistic function) : 로짓 변환의 역함수 = 1/log(odds)
= 선형 회귀와 sigmoid함수의 결합 (수학식 정리해서 첨부예정)
로지스틱 회귀(logistic regression) = 로지스틱 함수 형태의 회귀 모델
👉 여기에서 W의 최적값을 찾기 위한 손실함수는 무엇일까?
베이즈 정리(bayes's theorem)
: 확률론과 통계학에서 베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터 사후확률을 구할 수 있다. (위키백과 참조)
- 사후 확률(posterior) = P(w|X)
: X(실제 데이터)가 주어졌을 때, w(가설)일 확률 = 신뢰도 - 우도 확률(likelihood) = P(X|w)
: w(가설)을 임의로 가정했을 때, X일 확률(=주어진 데이터의 분포로 파악) - 사전 확률(prior) = P(w)
: 일반적으로 알고있는 w(가설)의 확률 - 사후 확률 = 우도확률 X 사전 확률
이 세가지 확률을 통해서 가설을 추정한다. 추청방법에는 MLE와 MAP이 있다.
1) MLE (Maximum Likelihood Estimation : 최대 우도 추정법)
- 우도 확률을 최대화하는 추정법 = 우도 확률을 최대화시키는 파라미터(w)를 찾는 것
- w를 가정하고 w일 때의 X(실제 데이터)의 분포가 나올 확률을 구하는 것
- 데이터에 따라 민감하게 값이 변하는 단점이 있음. (ex. 동전던지기)
2) MAP (Maximum A Postier : 최대 사후 확률)
- MLE의 단점을 보완해주는 방법
- 주어진 실제 데이터를 보고 파라미터(w)를 추정하는 방법
- w는 추정된 것이므로 미지의 값이기 때문에 사후 확률을 계산하기 어려움
- 따라서, 우도 확률과 사전 확률을 곱한 값으로 근사 계산하여 추정함
(+) 사전 확률의 정확도에 추정값이 좌우된다.
(+) 관련 내용으로 파생되는 ML 개념이 설명된 글을 찾았다.
Discriminative model; 사후확률을 활용하는 지도 학습
Generative model; 가정이 필요한 사전확률, 우도확률을 활용하는 비지도 학습