Maximum Mean Discrepancy

MMD

Maximum Mean Discrepancy (MMD)[1][2] 是一个衡量两个分布差异的指标。具体而言,设 上的概率分布,给定从 采样出的独立同分布样本 以及从 采样出的独立同分布样本 ,我们询问 是否等于

MMD 启发自如下定理。

定理 1:设 是一个可分的度量空间, 上的两个 Borel 概率测度,则: 其中 表示 上所有连续有界泛函。

基于上述定理,当 时总有 ,因此用这个差值作为衡量指标似乎是一个不错的选择。不过这个差值还依赖于 的选取,一个自然的想法是选择使得差值最大的那个 . 综上,我们得到了 MMD 的定义。

定义 (MMD):设 上的泛函的集合, 如上文所定义。定义 MMD 为: 当取 我们就回到了定理 1 的情形,但是对于实际求解而言, 的范围太大了。因此,MMD 作者将 限制为 universal 再生核希尔伯特空间 (RKHS) 中的单位球。若加入 是紧的这一条件,那么 universal RKHS 在 中在 范数下是稠密的。这引出了下面的定理,表明限制 为 universal RKHS 中的单位球是可行的。

定理 2:设 是一个紧的度量空间, 上的泛函构成的 universal RKHS,相应的再生核为 . 设 中的单位球,则: 选择 RKHS 的好处在于,利用再生核的再生性,我们能很方便地计算 MMD. 具体而言,设 ,则根据再生性有: 因此 MMD 可以写作: 其中 称作分布 的核均值嵌入 (kernel mean embedding). 可以看见,MMD 本质上就是 RKHS 中两个点的距离。

使用样本近似期望,得到 MMD 的经验估计:

值得注意的是这个估计其实是有偏的。进一步地,取平方得:

因此: 这就是我们在实际应用中使用的 MMD 计算公式,其中再生核一般取高斯核或者拉普拉斯核。

References

  1. Gretton, Arthur, Karsten Borgwardt, Malte Rasch, Bernhard Schölkopf, and Alex Smola. A kernel method for the two-sample-problem. Advances in neural information processing systems 19 (2006). ↩︎
  2. Gretton, Arthur, Karsten M. Borgwardt, Malte J. Rasch, Bernhard Schölkopf, and Alexander Smola. A kernel two-sample test. The Journal of Machine Learning Research 13, no. 1 (2012): 723-773. ↩︎
  3. 迁移学习简介之最大均值差异(Maximum Mean Discrepancy) - 姚远的文章 - 知乎. https://zhuanlan.zhihu.com/p/679276071 ↩︎

Maximum Mean Discrepancy
https://xyfjason.github.io/blog-main/2024/07/08/Maximum-Mean-Discrepancy/
作者
xyfJASON
发布于
2024年7月8日
许可协议