扩散模型逆向方差的选取
DDPM: 人为选取方差
首先做一个简要回顾。DDPM 定义前向马尔可夫过程为:
为了理解这个问题,需要注意到
- 情形一:
,可知 ,于是 ,所以应该取 . - 情形二:
,即数据集只有一个样本 ,此时 是 Dirac delta 函数,所以应该取 .
当然,这些情形的设定本身就不合理——没有人的数据是一堆高斯噪声或者一个样本,只是为了寻找方差可能的选择而做的一些试验性假设罢了。这也为后续的工作埋下了一个伏笔——最优的方差到底应该是什么形式的呢?
iDDPM: 可学习方差
为了解决上述问题,Improved DDPM[1] 将方差作为可学习参数进行优化而非人为选取。具体而言,考虑到
附:两个正态分布的 KL 散度
设
Analytic-DPM: 解析最优方差
Improved DDPM 引入可学习方差,缓解了 DDPM 方差设置不合理的问题,但也使得训练更加困难。然而同期工作 Analytic-DPM[2]却发现,
在开始之前,回忆 DDIM 论文将 DDPM 的前向过程扩展为非马尔可夫过程:
特别地,取
前文提到,问题实际的优化目标是:
首先计算均值:
接下来计算二阶矩:
代入可得最优方差为:
References
- Nichol, Alexander Quinn, and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In International Conference on Machine Learning, pp. 8162-8171. PMLR, 2021. ↩︎
- Bao, Fan, Chongxuan Li, Jun Zhu, and Bo Zhang. Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models. In International Conference on Learning Representations. 2021. ↩︎
- 苏剑林. (Aug. 12, 2022). 《生成扩散模型漫谈(七):最优扩散方差估计(上) 》[Blog post]. Retrieved from https://kexue.fm/archives/9245 ↩︎