K-means及其推广

谈到聚类（clustering），k-means 无疑是最先想到的算法之一了。其思想异常的简单有效，以至于我之前没有深究过其中的奥秘与坑点。今天就来更深入地探究一下 k-means。

1 算法描述

设我们有 \(n\) 个样本 \(X=\{x_1,\ldots,x_n\}\)，每个样本为 \(d\) 维向量，即 \(x_i\in \mathbb R^d\). k-means 算法欲将样本分到 \(k\) 个类 \(G_1,\ldots,G_k\) 中，且这些类构成对样本集 \(X\) 的一个划分，一个划分就是一个聚类结果。记 \(C\) 表示划分，则 \(l=C(i)\) 表示将样本 \(x_i\) 分到类 \(l\) 中。

k-means 的优化目标是最小化所有样本到其所属类中心的距离之和： \[ \min_{C,m_1,\ldots,m_k}\sum_{l=1}^k\sum_{C(i)=l}\|x_i-m_l\|^2 \] 然而这是一个组合优化问题，直接求解是 NP-hard 的，因此我们采用迭代的方式求解：

随机选择 \(k\) 个样本作为中心 \((m_1,\ldots,m_k)\).
对给定的中心，求最优划分，即： \[ \min_C \sum_{l=1}^k\sum_{C(i)=l}\|x_i-m_l\|^2 \] 显然，最优划分就是将每个样本划分给距离它最近的那个中心。
对于给定划分，求各类最优中心，即： \[ \min_{m_1,\ldots,m_k} \sum_{l=1}^k\sum_{C(i)=l}\|x_i-m_l\|^2 \] 求偏导并令为零，容易得到上式的最优解是： \[ m_l=\frac{1}{n_l}\sum_{C(i)=l}x_i\quad l=1,\ldots,k \] 其中 \(n_l\) 是属于第 \(l\) 类的样本数量，最优解即是对各类分别计算样本的均值（也称质心）。
迭代执行 2、3 步直至收敛。

迭代过程如下图所示：

2 收敛性

k-means 算法一定收敛吗？答案是肯定的。对每一轮迭代：

第 2 步中，如果新的划分与上一轮的划分相同，那么下一次划分也将相同，迭代终止；
第 2 步中，如果新的划分与上一轮的划分不同，必然是因为有样本发现了更近的类中心，所以损失函数值必然减小；
第 3 步中，损失函数值不增。

故每一轮迭代后，如果没有终止，损失函数必然减小。再注意到将 \(n\) 个样本划分成 \(k\) 类的方案数是有限的，因此只可能出现有限次迭代，即 k-means 必然在有限步内收敛。

虽然 k-means 一定收敛，但可能收敛到局部最优解，这完全取决于初始化的情况。因此在实际应用中，常常用不同随机种子跑多次。

3 其他距离度量

上述 k-means 算法是基于欧式距离的，这自然引发了我们思考——能不能采用其他的距离度量呢？

答案是 k-means 的核心思想依旧适用，只不过这时候不该叫做 k-means 了——"means" 这个名称来自于第 3 步中求均值，而之所以求均值，是因为均值是以欧式距离为损失函数的最优解。改变了距离度量，就改变了最优解的形式。

换句话说，如果使用其他距离确定划分（第 2 步），却依然用均值来更新类中心（第 3 步），就意味着第 2、3 步的损失函数不同，这很可能导致算法不收敛——毕竟第二节的收敛性证明依赖于第 2、3 步在优化同一个损失函数。

总而言之，对于距离度量 \(\text{dist}(\cdot,\cdot)\)，k-means 可以扩展为以下框架：

随机初始化 \(k\) 个中心 \((m_1,\ldots,m_k)\).
对给定的中心，求最优划分，即： \[ \min_C \sum_{l=1}^k\sum_{C(i)=l}\text{dist}(x_i,m_l) \] 显然，最优划分是将每个样本划分给距离它最近的那个中心。
对于给定划分，求各类最优中心，即： \[ \min_{m_1,\ldots,m_k} \sum_{l=1}^k\sum_{C(i)=l}\text{dist}(x_i,m_l) \] 对于不同距离的度量，最优解的形式有所不同。
迭代执行 2、3 步直至收敛。

基于上述框架，我们下面探究算法在其他几种距离下的具体形式。

3.1 曼哈顿距离——k-medians

曼哈顿距离，也即 L1 距离，定义为： \[ \text{dist}(x,y)=\|x-y\|_1=\sum_{j=1}^d |x_j-y_j| \] 在曼哈顿距离下，第 3 步的最优解是中位数（median）。因此，该算法被称作 k-medians.

中位数相比于均值的优势在于不易受到噪声点的干扰——如果有一个数据点特别离谱，它对均值的影响将是巨大的，但中位数可能根本不变。

3.2 汉明距离——k-modes

如果样本各维度都取离散值，汉明距离也是常用的一种度量： \[ \text{dist}(x,y)=\sum_{j=1}^d[x_j\neq y_j] \] 即比较两个向量有多少维取值不同。

在汉明距离下，第 3 步的最优解是众数（mode）。因此，该算法被称作 k-modes.

3.3 任意距离——k-medoids

对于任意的距离度量，第 3 步很可能没有一个像均值/中位数/众数那么好看的解，而最为暴力的求解方法就是——枚举！我们当然不可能在实值空间里枚举，但可以只在样本点中枚举——这就是 k-medoids 算法。可以看见，k-medoids 得到的中心点一定是某些样本点，这也是它与 k-means、k-medians 和 k-modes 的一个不同之处。

k-medoids 有一个特殊的应用场景——只知道样本点两两之间的距离，但不知道样本点具体是多少。无论是 k-means, k-medians 还是 k-modes，计算均值/中位数/众数必然需要样本点具体的值，所以它们无法应用在这个特殊的场景下。但是不难发现 k-medoids 只需要样本点两两之间距离足矣。

不过，k-medoids 的缺点也很显著——枚举耗时巨大。因此诸如 PAM(Partitioning Around Medoids) 等算法被提出以减小复杂度，此处按下不表。

综上所述，我们发现想要用一个新的距离度量，只需要想办法求解第 3 步——如果没有解析解，那就枚举（k-medoids）；如果有，恭喜你，你可以把这个算法叫做「k-some_strange_word_starting_with_the_letter_m」了！（大雾）下面我们用余弦相似度举个例子。

3.4 余弦相似度——spherical k-means

其实寻找基于余弦相似度的 k-means 算法正是本文的写作动机。最无脑的解决方案无非是用 k-medoids 算法，但为了效率考虑，我们不妨尝试一下第 3 步能否求出解析解： \[ \max_{m_1,\ldots,m_k} \sum_{l=1}^k\sum_{C(i)=l}\cos(x_i,m_l)\iff \max_{m_1,\ldots,m_k} \sum_{l=1}^k\sum_{C(i)=l}\frac{x_i\cdot m_l}{\|x_i\|\|m_l\|} \] 由于类与类互相独立，所以只需考虑： \[ \max_{m_l}\sum_i\frac{x_i\cdot m_l}{\|x_i\|\|m_l\|} \] 求和是对所有 \(\{i:C(i)=l\}\) 求和，书写简便起见省略了条件。由于 \(m_l\) 模长与优化目标无关，不妨假定为 \(1\)，优化问题变为： \[ \begin{align} \max_{m_l}&\sum_i\frac{x_i\cdot m_l}{\|x_i\|}\\ \text{s.t.}& \|m_l\|^2=1 \end{align} \] 引入拉格朗日乘子： \[ L(m_l, \lambda)=\sum_i\frac{x_i\cdot m_l}{\|x_i\|}-\lambda (\|m_l\|^2-1) \] 求偏导： \[ \begin{align} &\frac{\partial L}{\partial m_l}=\left(\sum_i\frac{x_i}{\|x_i\|}\right)-2\lambda {m_l}&&\text{note that this is a vector}\\ &\frac{\partial L}{\partial \lambda}=1-\|m_l\|^2 \end{align} \] 令为零，解得： \[ m_l=\frac{1}{2\lambda}\left(\sum_i\frac{x_i}{\|x_i\|}\right) \] 其中 \(1/2\lambda\) 是归一化系数，以使得 \(m_l\) 是单位向量。不过鉴于余弦相似度与 \(m_l\) 模长无关，所以是否归一化也不重要。

综上所述，对于类 \(l\)，其类中心 \(m_l\) 应更新为所有属于类 \(l\) 的样本归一化后的和（或平均）。事实上，这个算法被称作 spherical k-means^[8].

考虑一个特殊情况：样本 \(x_i\) 本来就是归一化的，即模长为 \(1\). 那么基于等式：如果 \(x,y\) 模长都为 \(1\)，那么 \(x,y\) 的余弦相似度和欧式距离的平方具有简单的线性关系： \[ \|x-y\|_2^2=x^T x+y^T y-2x^Ty=2(1-x^Ty)=2(1-\cos(x,y)) \] 容易知道，在这个特殊情况下，根据余弦相似度做 k-means，和根据欧式距离做 k-means 是等价的。

4 小结

本文首先回顾了 k-means 算法的过程，然后证明了其必定在有限步内收敛。本文进一步将 k-means 的欧式距离发散到其他距离度量，得以从一个统一的视角看待 k-means、k-medians、k-modes、k-medoids、spherical k-means 算法，特别是针对余弦相似度给出了详细推导。

但是，对 k-means 的学习远不止于此，例如文献^[10]从梯度下降、EM 算法、Newton 优化三个角度对 k-means 算法做了解释并辅以之实验。暂且搁置，以后有空拜读。

Reference

李航.统计学习方法 ↩︎
wlad (https://stats.stackexchange.com/users/86522/wlad), Proof of convergence of k-means, URL (version: 2016-10-31): https://stats.stackexchange.com/q/188352 ↩︎
https://www.cse.iitb.ac.in/~shivaram/teaching/old/cs344+386-s2017/resources/classnote-2.pdf ↩︎
Has QUIT--Anony-Mousse (https://stats.stackexchange.com/users/7828/has-quit-anony-mousse), Why does k-means clustering algorithm use only Euclidean distance metric?, URL (version: 2014-01-07): https://stats.stackexchange.com/q/81496 ↩︎
Has QUIT--Anony-Mousse (https://stats.stackexchange.com/users/7828/has-quit-anony-mousse), Perform K-means (or its close kin) clustering with only a distance matrix, not points-by-features data, URL (version: 2013-09-19): https://stats.stackexchange.com/q/32942 ↩︎
k-means 聚类中使用余弦距离 cos distance - kuizhiqing的文章 - 知乎 https://zhuanlan.zhihu.com/p/380389927 ↩︎
已计算出个文本间的余弦相似度值，怎么用kmeans聚类？ - 花开如火的回答 - 知乎 https://www.zhihu.com/question/29873270/answer/2411868694 ↩︎
Dhillon, Inderjit S., and Dharmendra S. Modha. Concept decompositions for large sparse text data using clustering. Machine learning 42, no. 1 (2001): 143-175. ↩︎
ttnphns (https://stats.stackexchange.com/users/3277/ttnphns), Why does k-means clustering algorithm use only Euclidean distance metric?, URL (version: 2020-07-21): https://stats.stackexchange.com/q/81494 ↩︎
Bottou, Leon, and Yoshua Bengio. Convergence properties of the k-means algorithms. Advances in neural information processing systems 7 (1994). ↩︎

机器学习

#machine learning

K-means及其推广

https://xyfjason.github.io/blog-main/2022/08/12/K-means及其推广/

作者

xyfJASON

发布于

2022年8月12日

许可协议

PyTorch单机多卡从入门到入土（坑点记录）上一篇

[统计推断]第四章·多维随机变量和不等式下一篇