Maximum Mean Discrepancy

MMD

Maximum Mean Discrepancy (MMD)^[1]^[2] 是一个衡量两个分布差异的指标。具体而言，设是上的概率分布，给定从采样出的独立同分布样本以及从采样出的独立同分布样本，我们询问是否等于？

MMD 启发自如下定理。

定理 1：设是一个可分的度量空间，是上的两个 Borel 概率测度，则：其中表示上所有连续有界泛函。

基于上述定理，当时总有，因此用这个差值作为衡量指标似乎是一个不错的选择。不过这个差值还依赖于的选取，一个自然的想法是选择使得差值最大的那个 . 综上，我们得到了 MMD 的定义。

定义 (MMD)：设是上的泛函的集合，如上文所定义。定义 MMD 为：当取我们就回到了定理 1 的情形，但是对于实际求解而言，的范围太大了。因此，MMD 作者将限制为 universal 再生核希尔伯特空间 (RKHS) 中的单位球。若加入是紧的这一条件，那么 universal RKHS 在中在范数下是稠密的。这引出了下面的定理，表明限制为 universal RKHS 中的单位球是可行的。

定理 2：设是一个紧的度量空间，是上的泛函构成的 universal RKHS，相应的再生核为 . 设为中的单位球，则：选择 RKHS 的好处在于，利用再生核的再生性，我们能很方便地计算 MMD. 具体而言，设，则根据再生性有：因此 MMD 可以写作：其中称作分布的核均值嵌入 (kernel mean embedding). 可以看见，MMD 本质上就是 RKHS 中两个点的距离。

使用样本近似期望，得到 MMD 的经验估计：

值得注意的是这个估计其实是有偏的。进一步地，取平方得：

因此：这就是我们在实际应用中使用的 MMD 计算公式，其中再生核一般取高斯核或者拉普拉斯核。

References

Gretton, Arthur, Karsten Borgwardt, Malte Rasch, Bernhard Schölkopf, and Alex Smola. A kernel method for the two-sample-problem. Advances in neural information processing systems 19 (2006). ↩︎
Gretton, Arthur, Karsten M. Borgwardt, Malte J. Rasch, Bernhard Schölkopf, and Alexander Smola. A kernel two-sample test. The Journal of Machine Learning Research 13, no. 1 (2012): 723-773. ↩︎
迁移学习简介之最大均值差异（Maximum Mean Discrepancy） - 姚远的文章 - 知乎. https://zhuanlan.zhihu.com/p/679276071 ↩︎

机器学习

#machine learning

Maximum Mean Discrepancy

https://xyfjason.github.io/blog-main/2024/07/08/Maximum-Mean-Discrepancy/

作者

xyfJASON

发布于

2024年7月8日

许可协议

顺序统计量上一篇

个人网站维护下一篇