Langevin Dynamics
在 Score-Based Generative Models 一文中,我们用到了 Langevin dynamics 进行采样,但没有解释其原理。另外,在 Elucidated Diffusion Models 一文中,我们提到常用的扩散 SDE 和 PF ODE 其实可以推广为一个由 PF ODE 与 Langevin diffusion SDE 组合而成的广义 SDE. 由此可见,Langevin dynamics 在扩散模型的研究中有着举足轻重的地位,因此本文探究其背后的原理。
物理背景
Langevin dynamics 脱胎于经典的布朗运动模型:将花粉放入水杯之中,则花粉会因受到水分子的无规律撞击而做布朗运动,如图所示:
本节将通过分析该模型下的牛顿第二定律、功能关系与 Langevin 方程,推导出 Langevin diffusion SDE,最后借助 Fokker-Planck 方程找到该 SDE 的平稳分布,为下一节基于 Langevin dynamics 的采样方法做准备。
牛顿第二定律
设花粉的质量为
功能关系
根据动能定理,合外力对物体做的功等于物体动能变化量,因此在一个微小时间
Langevin 方程
花粉的运动还可以用 Langevin 方程描述:
表示与速度大小正相关、方向相反的阻尼力,其中 为阻尼系数,由 Stokes' Law 给出; 表示粒子受周围水分子无规律撞击的随机涨落力,是一个零均值正态随机变量。
Langevin SDE
联立
为了将上式写作 SDE 的形式,引入标准维纳过程
Langevin SDE 的平稳分布
考虑一堆依 Langevin diffusion SDE 运动的粒子,初始时它们服从某种概率分布,那么随运动进行它们的概率分布也将随时间变化。我们感兴趣的是,当运动足够长时间后,粒子的概率分布将收敛到怎样的平稳分布。
设
Langevin MCMC
假设我们希望从分布
ULA
令
这就是用于采样的 Langevin diffusion SDE 形式。
实际操作时需要将
联系梯度下降
注意到,如果
- 梯度下降项使得采样点不断向
增大的方向移动,即向高密度区域聚集; - 随机扰动项使得优化算法变成了采样算法——如果只有梯度下降项,那么数据点最终会收敛到
极大的地方,但采样应该允许取到 较小的区域,因此加入随机扰动项实现这一点。
下图展示了梯度下降与 ULA 的区别:
MALA
在 ULA 中,我们不假思索地直接将
为了改进 ULA 的误差,受到 Metropolis-Hastings 采样的启发,Roberts & Tweedie 提出了 Metropolis Adjusted Langevin Agorithm (MALA):
提议
;计算接受率:
其中 表示取最小值操作;接受或拒绝提议。
这个链接中有非常直观的 MALA 算法采样过程的可视化。
References
- Paweł A. Pierzchlewicz. Langevin Monte Carlo: Sampling using Langevin Dynamics. https://perceptron.blog/langevin-dynamics/ ↩︎
- Chan, Stanley H. Tutorial on Diffusion Models for Imaging and Vision. arXiv preprint arXiv:2403.18103 (2024). ↩︎
- 朗之万动力学原理简介 - Openverse的文章 - 知乎. https://zhuanlan.zhihu.com/p/699598518 ↩︎
- Yuansi Chen. Lecture 3 – Langevin algorithms. https://metaphor.ethz.ch/x/2024/fs/401-4634-24L/lec/Lecture03.pdf ↩︎
- Kirill Neklyudov. Langevin Dynamics for sampling and global optimization. https://docs.google.com/presentation/d/1_yekoTv_CHRgz6vsT57RMDESHjlnbGQvq8tYCxKLyW0 ↩︎
- Alain Durmus, Eric Moulines. The Langevin MCMC: Theory and Methods. https://www.icts.res.in/sites/default/files/paap-2019-08-08-Eric%20Moulines.pdf ↩︎
- Roberts, Gareth O., and Richard L. Tweedie. Exponential convergence of Langevin distributions and their discrete approximations. Bernoulli (1996): 341-363. ↩︎
- Roy Friedman. A Simplified Overview of Langevin Dynamics. https://friedmanroy.github.io/blog/2022/Langevin/ ↩︎