Diffusion+VAE
近期有几篇工作不约而同地都尝试了结合 Diffusion Models 与 VAE,尽管它们的动机并不相同。本文首先以一个结合 Diffusion 与 AE 的工作为引入,然后推导 Diffusion + VAE 的基本框架,再在这个基本框架下分别介绍相关的工作。
Diffusion + AE
在与 VAE 结合之前,论文[1]提出了 Diffusion Autoencoders,结合了 Diffusion 与 AE. 作者的动机是为扩散模型寻找一个有语义的隐空间,因为即便是像 DDIM 那样的确定性采样过程,其“隐空间”,即
其中,Semantic encoder 是一个卷积编码器,目的是提取输入图像的语义特征
为了支持无条件生成,我们需要对
Diffusion + VAE
DDPM 回顾
如上图所示,DDPM 将前向过程和逆向过程都设计为了马尔可夫链的形式:
基本框架
受到 Diffusion AE 的启发,我们在 DDPM 的概率图中新增一个隐变量
VAE 正则项:
VAE 重构项 / Diffusion 正则项:
注:从 VAE 的角度看,
是 的真实分布, 是预测的分布,因此相当于重构项;而从 Diffusion 的角度看, 是先验分布, 是后验分布,因此是正则项。Diffusion 重构项:
Diffusion 去噪匹配项:
下面我们介绍几个相关的工作。由于它们有着不同的动机,因此对上述基本框架或多或少进行了一些修改,我们可以着重关注修改的地方。
ES-DDPM
ES-DDPM[2] 的研究动机是希望加速扩散模型的训练和采样。不同于 improved DDPM 和 DDIM 在原马尔可夫链上跳跃式前进的加速采样方法,ES-DDPM 直接对加噪过程做一个截断(Early-Stop),不把原图像加噪到标准正态,如此不仅能加速采样,也能加速训练。这样做带来的一个问题是如何对非正态的
可以看见,这与我们画的基本框架非常相像。一个略有不同的点在于,作者为了能够分别独自训练 VAE 和 DDPM,规定
对于 愉快地训练了。
训练结束后,我们依照
LRDM
LRDM[3] 其实是海德堡大学的一篇硕士论文,其动机与本文开头的 Diffusion Autoencoders 一致——为扩散模型寻找一个有语义的隐空间。考虑到 VAE 拥有这样的隐空间,因此作者考虑将 VAE 与 Diffusion 相结合,整体框架如下左图所示:
可以看见,除了变量名与本文略有出入以外,这与我们的基本框架几乎完全一致。唯一的一个小区别在于没有从
作者还做了进一步的扩展,考虑了给不同时间步以不同的隐变量的情形,如上右图所示。具体实现上可以通过给编码器以时间步
DiffuseVAE
DiffuseVAE[4] 的想法很直接:首先用 VAE 生成图像
乍一看这好像与我们的基本框架不太相像,但仔细一瞧其实是类似的,只不过由于 DiffuseVAE 是分阶段训练而非联合训练的,在训练扩散模型之前已经训练好 VAE 了,所以可以把条件从隐变量
InfoDiffusion
InfoDiffusion[5] 的目的依然是寻找一个有语义的隐空间,整体框架如下图所示:
可见这就是在我们的基础框架上增加了两个正则项(红色框框),分别是:
Mutual Information Maximization:最大化隐变量
与图像 之间的互信息,用于避免模型忽略隐变量 . 这个思想最早来自于著名的 InfoGAN,而后被用在了 InfoVAE 之中,所以现在用在 Diffusion 中也并不意外。Prior Regularization:让
的后验逼近一个可灵活选取的先验分布,防止后验坍塌。 其中 可以是任意一种散度。
那么总的优化目标就是:
然而,这两个正则项都不能直接写出解析形式,需要进一步的推导。为此,我们首先重写 VAE 正则项(
事实上,InfoDiffusion 新加入的这两个正则项都是 InfoVAE[6] 提出的,感兴趣的读者可以参考 生成模型中的互信息一文。
References
- Preechakul, Konpat, Nattanat Chatthee, Suttisak Wizadwongsa, and Supasorn Suwajanakorn. Diffusion autoencoders: Toward a meaningful and decodable representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10619-10629. 2022. ↩︎
- Lyu, Zhaoyang, Xudong Xu, Ceyuan Yang, Dahua Lin, and Bo Dai. Accelerating diffusion models via early stop of the diffusion process. arXiv preprint arXiv:2205.12524 (2022). ↩︎
- Traub, Jeremias. Representation Learning with Diffusion Models. arXiv preprint arXiv:2210.11058 (2022). ↩︎
- Pandey, Kushagra, Avideep Mukherjee, Piyush Rai, and Abhishek Kumar. Diffusevae: Efficient, controllable and high-fidelity generation from low-dimensional latents. arXiv preprint arXiv:2201.00308 (2022). ↩︎
- Wang, Yingheng, Yair Schiff, Aaron Gokaslan, Weishen Pan, Fei Wang, Christopher De Sa, and Volodymyr Kuleshov. InfoDiffusion: Representation Learning Using Information Maximizing Diffusion Models. arXiv preprint arXiv:2306.08757 (2023). ↩︎
- Zhao, Shengjia, Jiaming Song, and Stefano Ermon. Infovae: Information maximizing variational autoencoders. arXiv preprint arXiv:1706.02262 (2017). ↩︎