https://robote.tistory.com/entry/%EB%B2%A0%EC%9D%B4%EC%A6%88-%EC%A0%95%EB%A6%AC
베이즈 정리
오늘은 통계학시간에 배웠지만, 실제로 왜 중요한지 몰랐던 베이즈 정리를 직관적으로 이해할 수 있도록 얘기 해보려 합니다. 베이즈 정리의 의의 베이즈 정리는 빈도기반 확률정의에서 신뢰기
robote.tistory.com
에서 얘기한 것처럼 Likelhood는 P(E|H)로 표현되며, H가 참일때 E가 관측될 확률 입니다.
Maximum Likelihood란?
그렇다면, Maximum Likelihood(MLE)는 무엇을 풀려고 하는 걸까요?
답은, 데이터 X = {X1, X2, X3, ..., Xn}이 주어졌을때 이를 잘 표현하는 분포를 찾으려 하는겁니다.
아래와 같이 데이터가 주어진다면 우리는 주황색이 우리가 찾으려 하는 분포라고 쉽게 파악하는것처럼 말이죠
그러면, 이를 수식으로 어떻게 정리하면 될까요?
파라미터 θ가 주어졌을때 x가 발생할 확률인 P(X|θ)를 최대화 하면 쉽게 이 문제를 풀 수 있습니다.
$$ P(x|\theta)=\prod_i^nP(x_i|\theta) $$
그리고 이를 좀더 쉽게 접근하기위해 Log를 취한후,
$$ logP(x|\theta)=\sum_i^nlogP(x_i|\theta) $$
θ로 편미분을 진행하여 0이되는 지점을 찾으면 우리는 likelihood가 최대가 되는 지점을 찾을 수 있는데 이를 Maximum likelihood(MLE)라고 합니다.
$$ \frac{\partial}{\partial\theta}L(X|\theta)=\frac{\partial}{\partial\theta}\sum_i^nlogP(x_i|\theta)=0 $$
머신러닝 관점
그러면 MLE가 어떻게 머신러닝과 연관되는지 알아볼 차례입니다.
먼저 Gaussian Distribution을 기반으로 likelihood를 바라보면
$$ p(y|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2_i}}exp[-\frac{(y-\mu)^2}{2\sigma^2_i}]$$
θ로 편미분 후 정리하면
$$ lnp(y|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2_i}}-\frac{(y-\mu)^2}{2\sigma^2} $$
이때 σ=1이라 가정하면 우리가 흔히 regression 문제를 풀때 사용하는 Mean Squared Error(MSE)로 나타나고,
$$ -lnp(y|\mu)\propto \frac{(y-\mu)^2}{2}$$
이를 Bernoulli관점에서 풀게 되면 아래와 같이 정리할 수 있는데
$$ P(y|p) = p^y(1-p)^{1-y} $$
$$ lnP(y|p) = ylnp + (1-y)ln(1-p)$$
$$ -lnP(y|p) = -[ylnp + (1-y)ln(1-p)] $$
이 는 우리가 Classification문제를 풀때 사용하는 Cross Entropy term인 것을 확인할 수 있습니다.
즉, P(y|Data, θ)를 MLE로 접근하여 문제를 푼다는것은
데이터가D, 레이블 y를 가지고 있을때 이를 가장 잘표현하기 위한 분포를 찾는 과정을 우리는 학습으로 풀게 됩니다.