ARTICLE
凸分析
凸分析是数学的一个重要分支,主要研究凸集与凸函数的性质及其在优化理论中的应用。作为现代优化理论的基石,凸分析在运筹学、经济学、控制理论、信号处理和机器学习等领域发挥着核心作用。其核心思想是:凸性问题具有优良的全局性质,使得局部解即为全局解,从而为设计高效算法提供了理论保证。 凸集是凸分析最基本的概念。设C为欧几里得空间中的子集,若对任意x,y∈C和任意λ∈[
凸分析是数学的一个重要分支,主要研究凸集与凸函数的性质及其在优化理论中的应用。作为现代优化理论的基石,凸分析在运筹学、经济学、控制理论、信号处理和机器学习等领域发挥着核心作用。其核心思想是:凸性问题具有优良的全局性质,使得局部解即为全局解,从而为设计高效算法提供了理论保证。
凸集是凸分析最基本的概念。设C为欧几里得空间中的子集,若对任意x,y∈C和任意λ∈[0,1],都有λx+(1-λ)y∈C,则称C为凸集。直观地说,凸集中任意两点间的线段完全包含在该集合内。常见的凸集包括整个欧几里得空间、超平面{x∣⟨a,x⟩=b}、半空间{x∣⟨a,x⟩≤b}、欧几里得球{x∣‖x‖≤r}以及多面体{x∣Ax≤b}等。凸集在交运算下保持封闭,任意一族凸集的交集仍是凸集;仿射变换下凸集仍映射为凸集。然而,凸集的并不一定是凸集。分离超平面定理是凸集理论的核心结论:两个不相交的非空凸集存在分离超平面,这一性质是对偶理论的基础。
凸锥是凸分析中的另一重要结构。集合K称为凸锥,若对任意x,y∈K和任意非负实数α,β,有αx+βy∈K。凸锥在对偶理论与半定规划中具有重要地位。典范的凸锥包括非负象限R₊ⁿ、二阶锥{(x,t)∣‖x‖≤t}和半正定矩阵锥S₊ⁿ。自对偶锥是一类特殊的凸锥,其共轭锥等于自身,在优化理论中具有优美的对称性质。
凸函数的定义建立在凸集之上。函数f定义在凸集上,若对任意x,y∈dom f和任意λ∈[0,1]满足f(λx+(1-λ)y)≤λf(x)+(1-λ)f(y),则称f为凸函数。凸函数的几何意义是函数图上任意两点的弦位于函数图之上。若上述不等式对所有x≠y和λ∈(0,1)严格成立,则称f为严格凸函数。若−f是凸函数,则称f为凹函数。凸函数具有许多优良性质:其一,任何局部极小值都是全局极小值,这是凸优化问题的根本优势;其二,凸函数的水平集{x∣f(x)≤α}是凸集;其三,凸函数在定义域内部连续,且在几乎所有点处可微。常见凸函数包括线性函数、二次型xᵀQx(其中Q半正定)、指数函数eᵃˣ、负对数函数−log x以及范数‖x‖等。凸函数在加法、取最大值、仿射复合等运算下保持凸性。
凸包运算是从任意集合构造凸集的标准方法。集合S的凸包是包含S的最小凸集,记为conv(S),由S中所有点的凸组合构成。凸组合是指形如∑ᵢλᵢxᵢ且满足λᵢ≥0、∑ᵢλᵢ=1的线性组合。Carathéodory定理指出,在d维空间中,若某点属于某集合的凸包,则必然可以表示为该集合中至多d+1个点的凸组合。这一结论在计算几何中具有重要应用。
支撑函数是描述凸集的分析工具。凸集C的支撑函数定义为(y)=sup{⟨y,x⟩:x∈C},其中y为方向向量。支撑函数是正齐次凸函数,满足(ty)=t·(y)对任意t≥0成立。支撑函数与凸集之间存在一一对应关系:两个不同的凸集必有不同的支撑函数。Minkowski定理表明,任意闭凸集可以表示为支撑函数所定义的一组半空间的交集C={x∣⟨y,x⟩≤(y),∀y}。
极值点在凸多面体理论中至关重要。凸集C中的点x是极值点,若x不能表示为C中两个不同点的凸组合。直观地看,极值点位于凸集的"角落"处。Minkowski-Krein-Milman定理指出:紧凸集等于其极值点集的凸包。在线性规划中,基本可行解恰好对应对偶可行域的极值点,这解释了为何单纯形法仅需搜索有限个极值点即可找到最优解。
共轭函数(Fenchel对偶函数)是凸分析中对偶理论的核心工具。凸函数f的共轭函数定义为f*(y)=sup{⟨y,x⟩−f(x):x∈dom f}。Fenchel不等式⟨x,y⟩≤f(x)+f*(y)对所有x,y恒成立,其等号成立的条件是y∈∂f(x)。共轭运算具有对合性质:若f是闭凸函数,则f**=f。常见共轭函数包括:f(x)=|x|的共轭为f*(y)=(y)(指示函数);f(x)=eˣ的共轭为f*(y)=y log y−y(当y>0);f(x)=−log x的共轭为f*(y)=−1−log(−y)(当y<0)。
次梯度将导数的概念推广到不可微凸函数。凸函数f在x处的次梯度g满足f(y)≥f(x)+⟨g,y−x⟩对所有y∈dom f成立。所有次梯度的集合称为次微分∂f(x)。次微分是闭凸集,且当f可微时∂f(x)={∇f(x)}退化为单点集。次梯度的重要性质包括:x*是f的全局极小点当且仅当0∈∂f(x*);次微分在点态最大值运算下具有直观的链式法则。在实际应用中,次梯度下降法是训练大规模机器学习模型的有效工具。
Fenchel对偶是凸分析中最基本的对偶框架。考虑原始问题(P) min f(x)+g(Ax),其对偶问题(D)为max −f*(−A*y)−g*(y)。在适当的约束规格下,强对偶成立,即原始最优值等于对偶最优值。Slater条件是常用的约束规格:若存在x∈relint(dom f∩dom(g∘A)),则强对偶成立。Fenchel对偶为许多优化算法(如ADMM和分裂算法)提供了理论框架。
KKT条件(Karush-Kuhn-Tucker条件)是带约束优化问题中最优解的必要条件。对于凸优化问题,当约束规格成立时,KKT条件同时也是充分条件。KKT条件包含三个部分:稳定性条件(梯度条件)、互补松弛条件和原始对偶可行性条件。在凸优化中,求解KKT方程组通常等价于求解原问题。
凸分析在机器学习中有着广泛应用。支持向量机通过核方法构造凸二次规划问题求解最优分类超平面;逻辑回归使用凸的对数损失函数保证全局最优;Lasso回归通过ℓ₁范数正则化实现特征选择,其凸性质保证了高效求解算法(如坐标下降法)的收敛性。此外,深度学习中常用的Adam、RMSProp等优化算法也借鉴了凸分析中次梯度和自适应步长的思想。
总之,凸分析为现代优化理论提供了坚实的数学基础,其核心概念和方法在科学计算、工程优化、经济均衡和数据分析等领域持续发挥着不可替代的作用。随着大数据和人工智能的兴起,凸分析与非凸优化的交叉研究正成为新的前沿方向。