Calculus of Variations
泛函的概念
众所周知,函数是数到数的映射——输入为数值
Example 1:给定平面上的两点
由于
Example 2:在著名的最速降线问题中,建立一个
由于
Example 3:在模式识别和机器学习中,一个常见的泛函就是熵
变分法是求解泛函极值的一种方法,即找到一个函数
泰勒展开与泛函导数
回忆对函数
类似的,要求泛函
对一元函数
那么可以类比出泰勒展开:
怎么类比的?
观察
式,前者自变量为标量,或者说是“1 维向量”,于是其一阶项系数就是一个导数;后者有 个自变量,或者说是“ 维向量”,于是其一阶项系数就是 个偏导数之和。那么对于泛函 ,它的自变量 是函数,可以视为“无穷维向量”,于是其一阶项系数就类比成了积分。
换句话说,对于一个泛函
最简泛函变分
特别地,我们考虑如下形式的泛函(最简泛函):
例子
在 PRML 第一章中有两个地方用到了变分法,当时直接给出了结果,现在我们回过头来看一下解的过程。
在信息论一节中,我们遇到了最大微分熵的问题:
在决策论一节中,出现了这样的优化问题(注意自变量是
References
- Bishop, Christopher. Pattern recognition and machine learning. ↩︎
- 变分法简介Part 1.(Calculus of Variations) - Dr.Stein的文章 - 知乎 https://zhuanlan.zhihu.com/p/20718489 ↩︎
- 浅谈变分原理 - 烤羚羊的文章 - 知乎 https://zhuanlan.zhihu.com/p/139018146 ↩︎
- PRML 学习笔记(附录):变分法 (Calculus of Variations) - Lucius的文章 - 知乎 https://zhuanlan.zhihu.com/p/610516538 ↩︎