Reproducing Kernel Hilbert Space
引言
在学习 SVM 时,我们了解到了解决线性不可分问题的一种常用技巧——核方法。核方法的基本思想是,对于数据空间中线性不可分的样本,将它们映射到更高维度(甚至无穷维)的特征空间后就可以变成线性可分的。进一步地,我们引入了核函数来实现高维特征空间中的内积运算,而不需要先将数据点映射到特征空间后再算内积。
在之前的文章中,我们直接给出了几个常用核函数,但并没有说明怎样的函数可以成为核函数,核函数对应着怎样的特征映射和怎样的特征空间。要回答这些问题就需要学习再生核希尔伯特空间的相关内容。这部分内容需要泛函分析的前置知识,包括希尔伯特空间、对偶空间、Riesz 表示定理等,读者可参考泛函分析相关书籍。
再生核希尔伯特空间 (RKHS)
RKHS 的定义与性质
定义(evaluation functional):设
容易知道
定义(再生核希尔伯特空间,RKHS):设
相比一般的希尔伯特空间,再生核希尔伯特空间有着一些好的性质,例如下面这条定理。
定理(
再生核的定义与性质
再生核希尔伯特空间的定义中并没有涉及任何跟“再生核”有关的东西,那么“再生核”究竟是什么呢?
定义(再生核):设
, (再生性质)
则称函数
再生性质可以理解为,
定理(再生核的存在性):
证明:首先证从右到左。设
然后证从左到右。设
上面的证明过程不仅说明了再生核的存在性,还借助
定理(再生核的唯一性):若再生核
证明:假设
最后我们说明再生核的一个重要性质——正定性。
定义(正定性):设
注:一些资料将上述定义的正定称为半正定,而严格正定称为正定。
定理:设
证明:
推论:再生核是正定的。
证明:由于
从正定函数构造 RKHS
在上一节中我们看到,一个 RKHS 具有唯一的再生核,且再生核是正定的。反过来,我们有 Moore-Aronszajn 定理:对于任意正定函数
首先,考虑到 RKHS 要求
值得强调一点的是,若取
不过,这样构造的
在 上是连续的; 上的任一逐点收敛到 元素的柯西列 也依范数收敛到 元素。
注意第二条性质也意味着:
接下来,由于
说着虽然简单,但严格证明还是挺麻烦的。我们需要验证:
是良定义的,即极限存在且独立于柯西列的选取; 确实是一个内积,即满足内积的几条性质; 确实是一个希尔伯特空间,即是完备的; 确实是一个 RKHS,即 连续(有界)。
详细证明见参考资料[1]的 4.1-4.4 节。
综合上一节与这一节的结论,我们知道一个 RKHS 有唯一的再生核,该再生核是一个正定函数,因此根据 Moore-Aronszajn 定理可以反过来构造出一个 RKHS. 显然,这前后两个 RKHS 应该是相同的,否则违反了 RKHS 与再生核之间的一一对应关系。因此 RKHS 与再生核之间有如下的构造关系:
特征空间与核函数
再生核的定义似乎与我们学习 SVM 时核函数的定义并不一样,它们之间有什么关系呢?
定义(核函数):设
根据上文关于正定性的定理容易知道,核函数是正定的,于是根据 Moore-Aronszajn 定理可知,它是某唯一 RKHS 的再生核。反过来,对于再生核
于是,综合以上所有内容,我们可以作出如下关系图:
现在我们就可以回答引言中的问题了:任何一个正定函数