[模式分类]非参数方法
本文对应《模式分类》的第 4 章。
核心思想
给定样本集
考虑样本空间中的一个小区域
为了解决这个问题,我们考虑如下过程:为了估计
为了构造这样的序列,我们有两种方法——Parzen 窗和 k 近邻。前者取
Parzen 窗
基本原理
为了方便,首先假设区域
非负性显然,只需验证归一性:
核函数角度
从核函数的角度理解,定义:
窗函数/核函数的选择
上面为了推导方便,我们假定了窗函数是单位超立方体,但这只是一种选择而已,我们还可以使用其他形式:
正态窗:
窗宽的影响
显然,如果
k 近邻
基本原理
Parzen 窗方法是人为设置
值得注意的是,尽管 k 近邻估计出的
另外,与 Parzen 窗不同的是,k 近邻得到的概率密度估计并不是一个合法的概率密度函数。例如,在一维情形下,记第
虽然积分是发散的,但 k 近邻密度估计的一个优点是
用于估计后验概率
我们可以用 k 近邻方法估计每一个类别的概率分布,然后使用最大后验准则进行分类。具体而言,设
根据最大后验准则,有了后验概率,就可以得到一个分类器:
可以看见这就是 k 近邻分类器。
最近邻分类器
上面提到我们用 k 近邻方法估计后验概率,再根据最大后验准则分类,就得到了 k 近邻分类器。但事实上,我们只依赖最近邻就能达到足够好的性能。
最近邻分类器的基本思想非常简单,即对于一个新样本,将其与已知样本逐一比较,找出距离最近的已知样本,以该样本的类别作为新样本的类别。如此,特征空间可以被分成一个个小单元(称作 Voronoi 网格),如图所示:
最近邻分类器有多好呢?可以证明,在无限训练样本的情形下,其误差率最多不会超过贝叶斯误差率的两倍。具体而言,设
证明比较复杂,暂时略去,以后有时间再看。
k 近邻分类器及其改进
将最近邻分类器进行推广,选择前若干个离测试样本最近的样本,取其中出现最多的类别作为新样本的类别,这就是 k 近邻分类器。对 k 近邻分类器的分析比最近邻更加复杂,这里略去。结论是,当样本量无限时,随着
一些改进方法:
剪辑近邻法。考虑到分类时最容易分类错误的地方就是交界区域处,因此可以设法将交界区域的样本去掉。因此我们需要识别出那些位于交界区域的样本。一种做法是:将已知样本集划分为训练集和测试集,采用近邻法利用训练集中的样本对测试样本进行分类,从中去掉被错分类的样本,剩余样本构成剪辑样本集,用于对新来的样本进行分类。
多重剪辑:
- 划分。将样本集随机划分为
个子集 ; - 分类。轮流地以其中一个作为训练样本集,对其邻近编号的样本进行测试;
- 剪辑。从各个子集中去掉在步骤 2 中被分错的样本;
- 混合。将剩下的样本合在一起,形成新的样本集;
- 迭代。转步骤 1,如果没有新的样本被剪辑掉,则停止迭代。
- 划分。将样本集随机划分为
压缩近邻法。考虑近邻法的分类原理,那些远离分类边界的样本对于最后的分类决策没有贡献,因此可以去掉。
将样本集为两个活动的子集:储存集
和备选集 .首先,在算法开始时,
中只有一个样本,其余样本均在 中;然后,考查
中的每一个样本,如果采用 中的样本能够对其正确分类,则该样本仍然保留在 中, 否则移动到 中,从而扩大代表集合。依次重复进行上述操作,直到没有样本需要搬移为止。最后,用
中的样本作为代表样本,对新来的样本进行分类。
距离度量
合法的距离度量应满足:
- 非负性:
- 自反性:
- 对称性:
- 三角不等式:
常见距离度量:
Minkowski 距离:
Manhattan 距离:
Euclidean 距离:
Chebyshev 距离:
Mahalanobis 距离:
其中 为半正定矩阵。