ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • MLE(Maximum Likelihood Estimation) 최대우도법
    ✨ AI/Basic concepts for AL 2021. 10. 28. 16:23

     

     

     

    최대 우도법이 잘 이해가 가지 않는다면 유투브 StatQuest with Josh Starmer의 위 동영상을 봅시다

    정말 간결하고 이해가 잘되서 갖고 와봤습니다 ~.~

     

     

    최대우도법은 단어 그대로 '우도(likelihood, 가능도)'를 '최대화'하는 지점을 찾는 것을 의미합니다.

     

     

     

    우도(Likelihood)

    x={1,4,5,6,9}인 데이터로 추정되는 분포 주황색, 파란색 중 어느 곡선으로부터 추출되었을 확률이 더 높을까? 출처-공돌이의 수학노트

    "데이터가 이 분포로부터 나왔을 가능도"

     

    우리가 가지고 있는 데이터는 보통 모집단(population)에서 일부분(sample)을 가져왔을 것이다.

    예를 들어서 모델링하고자 하는 문제가 "남반구 지역의 물고기 개체수를 예측"하는 것이라고 해보자, 그렇다면 풀고자 하는 문제의 모집단은 "남반구 지역의 시간에 따른 전체 물고기 개체수"지만 관측된 데이터는 모든 물고기 수는 아닐 것이다. 그렇다면 전체 물고기 수의 분포와 관측으로 얻어진 물고기 수의 분포가 약간 다를 수 있다. 하지만 가지고 있는 관측 데이터에 맞춰진 분포를 우도라고 한다.

    결국 우도가 가지는 의의는 "모델과 추정치의 우도가 높으면 좋다."라는 것이다. 즉 모델과 추정치가 데이터와 잘 맞으면, 데이터를 잘 설명하는 높아지는 값이며 "모델과 추정치가 데이터와 잘 맞는 정도를 확률로 표현한 것"을 의미한다.

     

     

     

     

    확률(Probability) vs 우도(Likelihood)

    확률은 P(data|distribution) 분포가 주어졌을데 데이터의 확률을 의미하며,(분포는 고정)

    우도는 L(distribution|data) 데이터가 주어졌을 때 분포의 likehood를 의미한다.(데이터는 고정)

     

    즉, 확률은 원인이 모델과 추정치이고 결과가 확률일 때 사용한다.

    ex. 평균이 4이고 표준편차가 0.5일 때 5일 확률은?

     

    그리고 우도는 원인이 데이터이고 결과가 모델, 추정치일 때 사용한다.

    ex. 동전을 3번 던져 모두 앞면이 나올 확률은?

     

     

     

     

    MLE(Maximum Likelihood Estimation) 최대우도법

    데이터의 밀도를 추정하는 한 방법으로 파라미터로 구성된 어떤 확률 밀도 함수 (x|셰타)에서 관측된 표본 데이터 집합이 있고, 이 표본에서 파라미터(셰타)를 추정하는 방법이다.

     

     

    표본 데이터(sample)를 모두 평균 값으로 지정해 likelihood 값을 계산하고 likelihood가 가장 큰 지점을 찾는다. 이렇게 찾게된 지점은 데이터와 제일 잘 맞는 모델과 추정치를 계산할 수 있게 된다.

    모델 파라미터를 관측 값에만 의존하여 예측하는 방법으로 주어진 파라미터를 기반으로 likelihood를 최대화 한다.

     

    likelihood function
    log-likelihood function

    likelihood function의 최대값을 찾는 방법을 MLE라고 한다. 계산의 편의를 위해 log-likelihood function의 최대값을 찾으며 최대값을 찾을 때 '미분계수'를 이용한다. 셰타에 대해 편미분하고 그 값이 0이 되도록하는 셰타를 찾는 과정을 통해 L(셰타|x)를 최대화 하는 셰타를 찾으면 된다. 

    log-likelihood function의 편미분

     

     

    MLE 특징

    • Asymptotically optimal

    최소한 consistent한 다른 추정값과 비교했을 때 MLE는 가장 작은 variance를 가진다.

    ex. 평균의 MLE는 sample mean인데 sample mean의 variance가 sample median의 variance보다 작다.

    • n이 무한대로 갈 때 표준정규분포를 따른다.
    • Equivalent
    • Unbiased가 아니지만 consistent하다.

     

     

     

     

    MAP(Maximum a Posteriori Estimiation) 최대 사후 확률 추정법

    주어진 관측 결과와 사전 확률을 결합해 최적의 모수를 찾아내는 방법

    MLE가 f(X|셰타)라면 MAP는 f(셰타|X)이다.

    데이터와 제일 잘 맞는 추정치를 찾고 주어진 데이터를 기반으로 최대 확률을 갖는 파라미터를 찾는다. MLE의 리스크를 해결

     

     

    딥러닝이랑 결국 데이터의 분포에 모델 파라미터를 근사시키는 과정이다. MLE, MAP, 베이지안(MLE와 MAP는 베이지안의 근간)모두 이 아이디어에서 근거한 개념이기 때문에 MLE는 딥러닝을 하려면 꼭 알아야 하는 개념 중 하나라고 할 수 있다.

     

     

     

     

     

     

    References

    https://angeloyeo.github.io/2020/07/17/MLE.html

    https://www.youtube.com/watch?v=mxCmB1WE3R8 

    https://www.youtube.com/watch?v=XepXtl9YKwc&t=6s 

    https://www.youtube.com/watch?v=9M9Sd4SVFqI 

    https://rpubs.com/Statdoc/204928

     

    '✨ AI > Basic concepts for AL' 카테고리의 다른 글

    KL-Divergence  (1) 2022.03.20
    Sampling Distribution  (0) 2021.05.06
    EDA(Exploratory Data Analysis)  (0) 2021.05.03

    댓글

Designed by Tistory.