일요일, 4월 15, 2018

Parametric Learning: 최대 사후 확률 추정 (Maximum a Posteriori Estimation) - MAP

1. 개요
최대 사후 확률 추정(Maximum A Posteriori Estimation)은 MAP라고 알려져 있는 파라미터 학습법의 일종이다. 최대 가능도 추정(Maximum Likelihood Estimation, 이하 MLE)에서는 동전의 앞면과 뒷면이 나올 확률을 구할 때, 특정한 하나의 동전에 대한 확률에만 관심이 있었다. (참고: http://arkainoh.blogspot.kr/2017/10/parametric.learning.maximum.likelihood.estimation.html)
예를 들어, 관찰 데이터는 D = {h, h, t, h}라고 주어지고, θ1 = 3/4, θ2 = 1/4인 두 개의 동전이 있다고 가정하자. 이때, MLE는 두 개의 동전 중 D를 발생시킬 확률이 높은 것을 선택한다.
그런데, MAP에서는 이 동전을 선택하는 행위 자체도 고려한다. MLE에 따르면 θ1이 가장 적합한 동전이지만, 만약 실제로 동전을 던지는 사람이 동전 θ2를 너무 선호한 나머지 100회의 시행 중 θ2를 99번 던지는 습성이 있다면, "관찰된 데이터가 어떤 동전을 통해 나온 결과인가?"라는 질문에는 θ2를 답으로 내는 것이 바람직하다. 즉, Parameter를 구하는 과정에서 P(θ1) = 0.01, P(θ2) = 0.99라는 Prior Probability를 고려해주는 것이 바로 MAP이다.
베이즈 정리(Bayes Rule)에 의하면 Posterior Probability = Likelihood * Prior Probability / Evidence인데, Evidence의 경우 Posterior Probability가 최대가 되는 Parameter를 구할 때 아무런 영향이 없으므로, Likelihood * Prior Probability만 고려하도록 한다.
요약하자면, MLE는 Likelihood만 고려하여 최적의 Parameter θ를 구하지만, MAP는 Likelihood와 함께 Prior Probability를 고려하여 최적의 θ를 구하는 방법이다.

2. Maximum A Posteriori Estimation (MAP)
MAP의 개념에 대해 조금 더 자세히 알아보자. 연속확률분포를 따르는 데이터 x가 주어졌을 때, 그 평균을 MAP를 통해 구하고자 한다.
앞서 개요에서 언급했던 것처럼, MAP에서는 구하고자 하는 Parameter의 확률, 즉, Prior Probability도 고려해주어야 한다. 따라서, 구하고자 하는 평균도 확률변수로 설정하고, 역시 정규분포를 따른다고 가정한다. (참고: MLE에서는 평균을 구하기 위해 전체 키를 더한 다음 학생 수로 나눴던 것을 상기하자.)
이를 통해 P(μ|D)를 최대화하는 μ을 구하자.
이 식에서의 변수는 μ이기 때문에, μ와 관련된 항들을 제외하고 중요하지 않은 나머지 부분들은 임의의 상수 α로 묶어버린다.
괄호 안의 식을 전개한 뒤 μ에 대해 정리하고 μ와 관련없는 항들을 임의의 상수 α'로 묶어버리면 다음과 같은 결과가 나온다. 이를 [식1]이라고 하자.
이번엔 Posterior Probability인 P(μ|D)도 역시 정규분포 형태라고 가정하자.

즉, 데이터의 그룹에 따라 수많은 μ들이 나올 수 있는데, 그 μ들의 평균이 대략 μn으로 나타날 것이라는 예상이다.
이 식 역시 μ과 관련없는 항들을 임의의 상수 α''로 묶어버리면, 다음과 같은 식을 얻을 수 있다. 이를 [식2]라고 하자.
[식1]과 [식2]는 같아야 하기 때문에, 변수 μ이 포함된 항들의 계수가 같다고 놓고 풀면 다음과 같은 결과가 나온다.
이때 μML은 MLE를 통해 구한 평균을 의미한다.
결국 μn이 우리가 찾고자 하는 답이기 때문에 이를 μMAP라고 하고, 임의의 상수 λ를 다음과 같이 정의하자.
위에서 구한 μn를 λ를 사용하여 표현하면 다음과 같은 관계가 성립됨을 알 수 있다.
즉, MLE로 구한 평균과 Prior Probability의 평균의 적당한 Linear Interpolation이라고 할 수 있다. 이를 간단히 해석해보면 σ0이 작을수록 λ는 커지며, N이 엄청 크다면 MLE로 구한 평균 쪽이 전체를 Dominate해버린다. 즉, Prior Probability에 대한 선험적 지식이 확고할수록 Prior Probability를 믿겠다는 의미가 된다.

3. References
https://en.wikipedia.org/wiki/Maximum_a_posteriori_estimation
Alpaydın, Ethem. Introduction to machine learning. Cambridge, MA: MIT Press, 2014. Print.

댓글 없음:

댓글 쓰기