0. Mixture Models and EM


  • 관찰 변수(observed variable)와 잠재 변수(latent variable)에 대한 결합(joint) 분포를 정의한다고 해보자.
    • 이 때 관찰된 변수에 대한 확률 분포를 구하고 싶은 경우 잠재 변수의 주변화(marginalization) 작업을 진행하면 된다.
    • 이 의미는 반대로 복잡한 형태의 주변 확률 분포를 가진 관찰 변수에 대한 확률 분포를 다룰 때에,
      • 좀 더 다루기 쉬운 관찰 변수와 잠재 변수의 결합(joint) 분포로 표현할 수도 있다는 이야기가 된다.
      • 즉, 잠재 변수를 도입함으로서 복잡한 분포 모델을 좀 더 쉬운 형태의 분포들의 조합으로 변경할 수 있다.
  • 이번 장에서는 2.3.9절에서 다루었던 가우시안 혼합 분포를 살펴볼 것이다.
    • 일전에 다루었던 혼합 가우시안 분포에서의 잠재 변수는 이산(discrete) 변수였음.
    • 마찬가지로 여기서도 잠재 변수를 이산 변수로 다룰 것임.
    • 연속 은닉 변수는 12장에서 다룰 예정이다.
  • 혼합 모델은 클러스터링 분야에서도 많이 사용된다.
    • 이러한 예로 K-means 알고리즘을 들 수 있다.
  • 또한 혼합 분포에서 사용되는 잠재 변수의 용도에 대해서도 살펴보게 될 것이다.
    • 이산 잠재 변수(discrete latent variable)를 이용하여 혼합 분포들 중에서 특정 분포에 속하게 되는 확률를 잠재 변수로 놓고 이에 대한 확률 분포를 다룬다.
  • 일반적인 혼합 모델에서 가장 많이 사용하는 알고리즘이 EM (expectation-maximazation) 알고리즘이다.
    • EM 알고리즘이 어떠한 것인지 알기 위해 가장 먼저 가우시안 혼합 분포 (Gaussian mixture model : GMM ) 에 대해 다루고,
    • 잠재 변수의 관점에서 이를 어떻게 해석하는지를 좀 더 자세히 살펴볼 것이다.
  • 또한 우리는 K-means 알고리즘이 EM 알고리즘의 특별한 경우임을 확인할 것이다.

  • GMM (Gaussian Mixture Model) 모델은 데이터마이닝 분야에서 정말 흔히 사용되는 알고리즘 중 하나이다.
    • 앞으로 가우시안 혼합 모델을 GMM 이라고 표기할 것이다.
    • 많은 경우 MLE 를 이용한 EM 알고리즘을 사용하는데 사실 이러한 방식에는 한계가 있다.
    • 10장에서는 변분 (Variational) 추론 프레임워크를 활용하여 좀 더 발전된 형태의 베이지안 처리 방식을 다룰 것이다.
      • 물론 변분 방식은 EM 보다는 계산량이 많다. (많은 경우 비슷하기도 하다.)
      • 하지만 이 방식은 혼합 분포에서 사용되는 구성요소의 개수를 자동으로 설정할 수 있다. (EM은 사용자가 직접 지정)
        • 사전 분포를 도입함으로써 혼합 분포 내의 분포의 비율을 조정하게 된다.
        • 뭐, 10장에서 자세히 다룰 것이다.