- 잠재 변수 \( {\bf Z} \) 가 존재하고 관찰 데이터 \( {\bf X} \) 가 주어진 모델에서는 \( p({\bf Z}|{\bf X}) \) 를 구하는 작업과,
- 앞서 구한 \( p({\bf Z}|{\bf X}) \) 를 사용하여 \( p({\bf X}, {\bf Z}) \) 의 기대값(expectation)을 구하는 작업이 가장 중요한 작업이다.
- 우리가 사용하는 모델은 결정적(deterministic) 파라미터가 포함될 수 있다.
- 적률(moment)의 형태로 모델에 포함하거나,
- 혹은 Fully Bayesian 모델을 사용하여 파라미터에 대한 사전 분포를 모델에서 고려하는 형태로 사용 가능하다.
- 앞 장에서는 이러한 모델의 식을 계산하는 방법으로 EM 알고리즘을 살펴보았다.
- 이 알고리즘은 잠재 변수 \( Z \) 의 사후 분포와 관련된 complete-data 로그 가능도 함수의 기대값을 계산한다.
- 그런데 사실 현실적인 문제를 이런 모델로 해결하기에는 많은 어려움이 따른다.
- 잠재 변수의 차원이 높은 경우 계산이 힘들다.
- 기대값 자체를 구하기가 어려운 모델인 경우도 존재한다.
- 사후분포와 기대값을 구하기 어려운 이유
- 연속 변수
- 적분 식이 닫힌 형태(closed form)가 아니다.
- 적분식에 포함된 변수의 차수가 너무 높아 적분이 어렵다.
- 이산 변수
- 합을 구하는 식을 계산할 때 종종 연산량이 지수로 증가한다.
- 그렇다면 해결 방법은 무엇일까? 바로 정확한 값이 아닌 근사 추정을 수행한다.
- 근사 추정에는 2가지 방법이 있다.
- 확률적인 방법 (stochastic)
- Markov chain Monte Carlo
- 베이지언 추론에서 많이 사용한다.
- 비교적 많은 계산량을 수반한다.
- 따라서 작은 크기를 가지는 문제를 해결하는데 더 적합하다.
- 이 방법은 11장에서 다룰 것이다.
- 결정론적인 방법 (deterministic)
- 변분 추론 (Variational Inference)
- 이를 변분 베이즈 (Variational Bayes)라고도 부른다.
- 사후 분포를 근사하는 방식을 사용한다.
- 비교적 큰 규모를 가지는 응용점에 더 적합하다.
- 하지만 정확한 값을 추론하는 능력은 부족하다.
- 이것은 이번 장에서 다룰 것이다.
- 4.4절에서 이미 라플라스 근사법(Laplace approximation)을 다루었다.
- 이는 분산의 최빈값을 이용하여 가우시안 함수로 이를 근사하는 기법이다.
- 이번 장에서는 결정론적 근사 추정 방식인 변분 추론을 다루게 된다.
- 그리고 이번 장의 마지막에서는 변분 프레임워크의 한 형태인 Expectation Propagation 에 대해서도 조금 다룰 것이다.