Lagrangian Duality
拉格朗日函数
考虑如下带约束的优化问题: 我们可以将其等价转换为无约束优化问题: 其中, 与 定义为:
直观上,如果 ,那么 ,因此为了最小化目标函数,必须有 ;同理,如果 ,那么 ,因此为了最小化目标函数,必须有 . 故二者等价。
然而, 和 都有不可导点,这让我们难以求解问题。为此,一个常见的技巧就是用方便优化的函数代替它们。
例如,我们可以用如下的 logarithm barrier function 代替 : 也可以用如下的 penalty function 代替 : 还可以用 ReLU 代替 : 甚至可以用线性函数代替 : 上面四种函数都是 的下界,如下靠左四图所示:
这里我们特别考虑线性函数情形。对 也用线性函数做类似的代替,如上最右图所示: 那么,用 和 代替 和 ,则优化目标变成: 这就是拉格朗日函数,其中 和 称作拉格朗日乘子。
从推导过程可以看出,对于任意合法的解 ,拉格朗日函数都是原优化目标 的下界:
拉格朗日对偶函数
拉格朗日对偶函数定义为拉格朗日函数的下确界: 于是对于合法的解 ,拉格朗日对偶函数 、拉格朗日函数 和原优化目标 有关系: 注意对偶函数 是 的函数,原函数 是 的函数,二者通过拉格朗日函数 作为桥梁相连接。
由于对偶函数是原函数的下界,所以对偶函数的最大值小于等于原函数的最小值。如果二者正好相等(即具有强对偶性,见下一节),那么原问题就可以转化为如下的对偶问题:
弱/强对偶性
尽管对偶问题有着非常好的性质(一定是凸优化问题),但是一般情况下我们只能保证其最优解小于等于原问题最优解,这就是弱对偶性。如果对偶问题最优解一定等于原问题最优解,那么称该问题具有强对偶性。
Slater 条件是强对偶性成立的充分非必要条件:设原问题是凸优化问题,即
注意 Slater 条件是充分非必要条件,因此满足 Slater 条件一定具有强对偶性,但不满足 Slater 条件也可能具有强对偶性。
几何视角与 KKT 条件
等式约束
考虑如下只有一个等式约束的优化问题:
首先注意到约束曲面上任一点
现在我们想找到一个
不等约束
接下来考虑具有不等约束的优化问题:
- 最优解落在约束区域内,即
,如下右图所示。此时约束条件并没有发挥作用,问题退化为无约束情形。因此若 是最优解,则满足 ,对应拉格朗日乘子 ; - 最优解落在约束区域边界上,即
,如下左图所示。此时回到了等式约束下的优化问题,可以通过解拉格朗日函数的驻点求解。但是为了让 最小, 必须朝向区域 的内部,否则沿着梯度反方向移动就可以在 区域内找到更小的 . 由于 ,所以此时 .
上述两种情形可以通过
KKT 条件
将上述结果推广到多个等式和不等式约束的情况下,考虑一般性的优化问题及其对偶问题:
上文从几何视角直观地展现了 KKT 条件的意义,但不是严谨证明。下面给出互补松弛性条件的证明:
例子:线性规划
本节中,两个向量比大小指各分量同时比大小。例如,设
,则 指的是 对 均成立。
Case 1
考虑如下线性规划问题(松弛型):
Case 2
考虑如下线性规划问题(标准型):
与 Case 1 相比改动了一个符号,对应新增条件
Case 3
考虑如下线性规划问题(标准型):
线性规划对偶的性质
- 对偶的对偶就是原问题:根据上述三种 cases 容易验证。
- 弱对偶性成立:对偶问题的可行解是原问题的可行解的下界。
- 强对偶性成立:对偶问题的最优解等于原问题的最优解。
- 互补松弛性成为充要条件:设
分别是原问题和对偶问题的可行解,则 是最优解当且仅当 .