GAN, AR(Auto Regressive Model), VAE(Variational AutoEncoders), flows 와 같은 모델들이 이미지나 오디오 합성에 상당히 좋은 성능을 보이고 있고,
Energy-based modeling과 score matching 기법도 GAN 버금가게 이미지 생성 성능을 보여주고 있습니다.
확산 모델의 기본 개념
→ 역확산 과정을 학습하게 되면 완전히 무작위한 가우시안 노이즈 상태에서 시작하여 샘플 생성이 가능하게 됩니다.
확산 모델의 학습과 샘플링
확산 과정과 역확산 과정은 Markov Chain으로 모델링 됩니다.
Markov Chain : 미래의 상태는 현재의 상태에 의해서만 영향을 받는다.

학습 과정에서는 변분 추론을 사용하여 확산 과정과 역확산 과정을 최적화합니다.
확산 과정에서 작은 단계로 점진적으로 노이즈를 추가하면 역확산 과정에서도 조건부 가우시안 분포만으로 충분히 샘플을 복원할 수 있습니다.
→ 뉴럴 네트워크의 매개변수화가 가능하고 학습이 쉬워집니다.
확산 모델의 성능 분석
샘플 품질은 우수하지만 로그 가능도는 상대적으로 낮은 편입니다.
손실 압축 관점에서의 분석
확산 모델이 대부분의 데이터 표현을 인간이 인식할 수 없는 이미지 세부 정보에 사용된다는 사실을 발견하였음.
확산 모델의 샘플링 과정과 점진적 디코딩
확산 모델의 샘플링 과정이 점진적 디코딩과 유사함을 발견하게 됨.
→ 확산 모델이 처음에는 대략적인 형태를 복원하고 점차적으로 많은 세부 정보를 추가하는 방식으로 샘플을 생성합니다. 따라서 더 강력한 확장성을 가지게 됩니다.
우선, Forward Process를 나타낸 식에 대해서 살펴보자.

<aside> 🙀
확률 분포에서 적분을 하면 특정 변수를 제거하는 효과가 있습니다! (일단 암기해두기로 한다.)
Ex)
$$ p(x) = \int p(X, Y)dY $$
</aside>