Variational Inference
近似推断
在许多机器学习问题中,一个核心任务是给定观测数据
然而,许多问题的后验分布是不可解 (intractable) 的,这是因为根据贝叶斯公式,后验分布为:
近似推断方法可以大体分为两类——确定性方法和随机性方法。确定性方法的典型代表就是变分推断 (variational inference),而随机性方法的典型代表是马尔可夫蒙特卡洛 (MCMC). 本文主要探究变分推断方法。
变分推断
设观测数据为
通过上面的推导,我们得到了对数似然的下界
根据引入的假设的不同,我们就得到了不同的变分推断方法,例如:
- 平均场变分推断:假设
可分解为各分量密度函数之乘积,则可采用坐标上升法优化之; - 随机梯度变分推断:假设
是以 为参数的分布族,则可采用随机梯度下降优化之。
顺便补充一点,由于
平均场变分推断
设隐变量
注:
也可以是一些分量形成的一个组,但本质一样的,不影响推导。
由于这种假设来源于统计力学中的平均场理论 (mean-field theory),因此称该假设下的变分推断为平均场变分推断。
将上式代入
其中
随机梯度变分推断
对于泛函优化问题,一个常用的方法是将作为自变量的那个函数参数化,这样优化对象就从函数变成了参数,问题从而转化成了一般的函数优化问题。在变分推断的语境中,就是将
具体而言,将
一种常见的解决方案是重参数化技巧,相关内容在之前的文章中有详细介绍。对于特定的分布(例如高斯分布或离散类别分布),我们可以构造函数
References
- Bishop, Christopher. Pattern Recognition and Machine Learning. ↩︎
- Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. ↩︎
- Kingma, Diederik P., and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114 (2013). ↩︎
- 【机器学习-白板推导系列(十二)-变分推断(Variational Inference)】 https://www.bilibili.com/video/BV1DW41167vr/?p=4&share_source=copy_web&vd_source=a43b4442e295a96065c7ae919b4866d3 ↩︎