최대 우도법이 잘 이해가 가지 않는다면 유투브 StatQuest with Josh Starmer의 위 동영상을 봅시다
정말 간결하고 이해가 잘되서 갖고 와봤습니다 ~.~
최대우도법은 단어 그대로 '우도(likelihood, 가능도)'를 '최대화'하는 지점을 찾는 것을 의미합니다.
우도(Likelihood)
"데이터가 이 분포로부터 나왔을 가능도"
우리가 가지고 있는 데이터는 보통 모집단(population)에서 일부분(sample)을 가져왔을 것이다.
예를 들어서 모델링하고자 하는 문제가 "남반구 지역의 물고기 개체수를 예측"하는 것이라고 해보자, 그렇다면 풀고자 하는 문제의 모집단은 "남반구 지역의 시간에 따른 전체 물고기 개체수"지만 관측된 데이터는 모든 물고기 수는 아닐 것이다. 그렇다면 전체 물고기 수의 분포와 관측으로 얻어진 물고기 수의 분포가 약간 다를 수 있다. 하지만 가지고 있는 관측 데이터에 맞춰진 분포를 우도라고 한다.
결국 우도가 가지는 의의는 "모델과 추정치의 우도가 높으면 좋다."라는 것이다. 즉 모델과 추정치가 데이터와 잘 맞으면, 데이터를 잘 설명하는 높아지는 값이며 "모델과 추정치가 데이터와 잘 맞는 정도를 확률로 표현한 것"을 의미한다.
확률(Probability) vs 우도(Likelihood)
확률은 P(data|distribution) 분포가 주어졌을데 데이터의 확률을 의미하며,(분포는 고정)
우도는 L(distribution|data) 데이터가 주어졌을 때 분포의 likehood를 의미한다.(데이터는 고정)
즉, 확률은 원인이 모델과 추정치이고 결과가 확률일 때 사용한다.
ex. 평균이 4이고 표준편차가 0.5일 때 5일 확률은?
그리고 우도는 원인이 데이터이고 결과가 모델, 추정치일 때 사용한다.
ex. 동전을 3번 던져 모두 앞면이 나올 확률은?
MLE(Maximum Likelihood Estimation) 최대우도법
데이터의 밀도를 추정하는 한 방법으로 파라미터로 구성된 어떤 확률 밀도 함수 (x|셰타)에서 관측된 표본 데이터 집합이 있고, 이 표본에서 파라미터(셰타)를 추정하는 방법이다.
표본 데이터(sample)를 모두 평균 값으로 지정해 likelihood 값을 계산하고 likelihood가 가장 큰 지점을 찾는다. 이렇게 찾게된 지점은 데이터와 제일 잘 맞는 모델과 추정치를 계산할 수 있게 된다.
모델 파라미터를 관측 값에만 의존하여 예측하는 방법으로 주어진 파라미터를 기반으로 likelihood를 최대화 한다.
likelihood function의 최대값을 찾는 방법을 MLE라고 한다. 계산의 편의를 위해 log-likelihood function의 최대값을 찾으며 최대값을 찾을 때 '미분계수'를 이용한다. 셰타에 대해 편미분하고 그 값이 0이 되도록하는 셰타를 찾는 과정을 통해 L(셰타|x)를 최대화 하는 셰타를 찾으면 된다.
MLE 특징
Asymptotically optimal
최소한 consistent한 다른 추정값과 비교했을 때 MLE는 가장 작은 variance를 가진다.