仿射函数 (Affine Function)
仿射函数 (Affine Function) 是数学中一类兼具线性结构与平移变换的映射,其一般形式可写作 f ( x ) = A x + b f(x) = A x + b f ( x ) = A x + b ,其中 A A A 为线性变换 矩阵,b b b 为平移向量。仿射函数在凸优化 、计量经济学 、机器学习 和博弈论 等领域中扮演着基础性角色:它既是线性模型的广义版本,也是凸分析中最简单的凸函数之一。理解仿射函数的核心在于把握它与线性函数 之间的细微区别——所有线性函数都是仿射函数,但仿射函数未必通过原点。
形式化定义
设 V V V 和 W W W 为域 F \mathbb{F} F 上的向量空间 。映射 f : V → W f: V \to W f : V → W 称为仿射映射,若存在线性映射 T : V → W T: V \to W T : V → W 和向量 b ∈ W b \in W b ∈ W ,使得对所有 x ∈ V x \in V x ∈ V 均有:
f ( x ) = T ( x ) + b . f(x) = T(x) + b. f ( x ) = T ( x ) + b .
当 W = R W = \mathbb{R} W = R 且 V = R n V = \mathbb{R}^n V = R n 时,仿射函数的具体形式为:
f ( x 1 , x 2 , … , x n ) = a 1 x 1 + a 2 x 2 + ⋯ + a n x n + b , f(x_1, x_2, \ldots, x_n) = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n + b, f ( x 1 , x 2 , … , x n ) = a 1 x 1 + a 2 x 2 + ⋯ + a n x n + b ,
其中 a i ∈ R a_i \in \mathbb{R} a i ∈ R 为系数,b ∈ R b \in \mathbb{R} b ∈ R 为截距项。用矩阵记号可写作 f ( x ) = a ⊤ x + b f(x) = a^\top x + b f ( x ) = a ⊤ x + b 。
仿射函数的关键区别性特征为:对任意 λ ∈ F \lambda \in \mathbb{F} λ ∈ F 和 x , y ∈ V x, y \in V x , y ∈ V ,仿射函数满足
f ( λ x + ( 1 − λ ) y ) = λ f ( x ) + ( 1 − λ ) f ( y ) . f(\lambda x + (1 - \lambda) y) = \lambda f(x) + (1 - \lambda) f(y). f ( λ x + ( 1 − λ ) y ) = λ f ( x ) + ( 1 − λ ) f ( y ) .
这一等式恰好是凸函数 定义中的等号情形——仿射函数既是凸函数也是凹函数。
仿射函数与线性函数的关系
仿射函数与线性函数之间的混淆是数学学习中的常见误区。线性函数 L ( x ) L(x) L ( x ) 必须满足齐次性 L ( α x ) = α L ( x ) L(\alpha x) = \alpha L(x) L ( αx ) = αL ( x ) 和可加性 L ( x + y ) = L ( x ) + L ( y ) L(x + y) = L(x) + L(y) L ( x + y ) = L ( x ) + L ( y ) ,从而必然满足 L ( 0 ) = 0 L(0) = 0 L ( 0 ) = 0 。仿射函数 f ( x ) = T ( x ) + b f(x) = T(x) + b f ( x ) = T ( x ) + b 在 b ≠ 0 b \neq 0 b = 0 时不再满足 f ( 0 ) = 0 f(0) = 0 f ( 0 ) = 0 ,因此不是线性函数。
然而,任何仿射函数都可以通过"嵌入高一维"的方式转化为线性函数:定义 x ~ = ( x , 1 ) ∈ R n + 1 \tilde{x} = (x, 1) \in \mathbb{R}^{n+1} x ~ = ( x , 1 ) ∈ R n + 1 和 A ~ = [ A b ] ∈ R m × ( n + 1 ) \tilde{A} = [A \; b] \in \mathbb{R}^{m \times (n+1)} A ~ = [ A b ] ∈ R m × ( n + 1 ) ,则 f ( x ) = A ~ x ~ f(x) = \tilde{A} \tilde{x} f ( x ) = A ~ x ~ 变为线性函数。这一技巧在齐次坐标 和计算机图形学中具有重要应用。
从代数几何的角度看,在线性空间中,仿射函数是线性函数与常数函数的和;在更抽象的范畴论视角下,仿射映射是在仿射空间范畴中保持凸组合的映射。
几何解释
在 R 2 \mathbb{R}^2 R 2 中,仿射函数 f ( x ) = a x + b f(x) = a x + b f ( x ) = a x + b 对应一条直线,其中 a a a 为斜率,b b b 为 y y y 轴截距。在 R 3 \mathbb{R}^3 R 3 中,仿射函数 f ( x , y ) = a 1 x + a 2 y + b f(x, y) = a_1 x + a_2 y + b f ( x , y ) = a 1 x + a 2 y + b 对应一个倾斜的平面。在更高维度中,仿射函数的图像是一个超平面 。
仿射函数的水平集 (等值线)是相互平行的仿射子空间。对于 f ( x ) = a ⊤ x + b f(x) = a^\top x + b f ( x ) = a ⊤ x + b ,集合 { x ∣ f ( x ) = c } \{x \mid f(x) = c\} { x ∣ f ( x ) = c } 是一个超平面,其法向量为 a a a ,与原点距离为 ( c − b ) / ∥ a ∥ (c - b)/\|a\| ( c − b ) /∥ a ∥ 。这一几何性质是支持向量机 (SVM) 分类器的理论基础——SVM 在特征空间中寻找分隔不同类别的最大间隔超平面,其决策边界恰好是一个仿射函数。
仿射函数在优化与经济学中的应用
在凸优化 中,仿射函数是最简单的优化对象:仿射函数的极小化或极大化问题对应于线性规划 (Linear Programming)。标准形式的线性规划问题可写为:
min x c ⊤ x + d s.t. A x ≤ b , x ≥ 0 , \min_{x} \; c^\top x + d \quad \text{s.t.} \quad A x \leq b, \; x \geq 0, x min c ⊤ x + d s.t. A x ≤ b , x ≥ 0 ,
其中目标函数 c ⊤ x + d c^\top x + d c ⊤ x + d 为仿射函数。线性规划是运筹学中最成熟的分支之一,其解空间的结构完全由仿射约束所定义的多面体决定。
在微观经济学 中,仿射函数频繁出现在预算约束 、需求函数 和生产函数 的局部近似中。消费理论中的预算线 p 1 x 1 + p 2 x 2 = I p_1 x_1 + p_2 x_2 = I p 1 x 1 + p 2 x 2 = I 是一个仿射方程,其斜率刻画了两种商品之间的边际替代率 。在计量经济学 中,经典线性回归模型 y i = β 0 + β 1 x i 1 + ⋯ + β k x i k + ε i y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i y i = β 0 + β 1 x i 1 + ⋯ + β k x ik + ε i 的核心部分正好是仿射函数——它假定因变量 y y y 的条件期望是自变量的仿射组合。
在博弈论 中,混合策略纳什均衡 的存在性证明依赖于布劳威尔不动点定理 或角谷不动点定理 ,而这些定理的证明通常需要将策略空间上的支付函数近似为仿射函数,再通过对单纯形 上的仿射映射施加不动点论证。
仿射变换与机器学习
在机器学习 中,仿射变换构成了神经网络的基石。一个全连接层 (Fully Connected Layer) 的计算正是仿射函数:h = W x + b h = W x + b h = W x + b ,其中 W W W 为权重矩阵,b b b 为偏置向量。偏置项 b b b 的存在使得神经网络能够在不通过原点的情况下学习表示,极大地增强了模型的表达能力。
在主成分分析 (PCA) 和线性判别分析 (LDA) 中,数据通过仿射变换被投影到低维子空间。PCA 寻找最大化投影方差的仿射变换,而 LDA 寻找最大化类间分离度的仿射变换。这些方法的共同点是其最优解可通过封闭形式的特征值分解获得——这是仿射结构带来的数学便利。
在正则化 理论中,岭回归 (Ridge Regression) 和套索回归 (Lasso) 所解决的优化问题都可以视为在仿射预测函数族 { x ↦ w ⊤ x + b } \{x \mapsto w^\top x + b\} { x ↦ w ⊤ x + b } 中最小化带惩罚项的经验风险。
仿射函数的代数性质
仿射函数在复合运算下构成一个封闭的代数结构。若 f ( x ) = A x + b f(x) = A x + b f ( x ) = A x + b 且 g ( y ) = C y + d g(y) = C y + d g ( y ) = C y + d ,则复合映射 g ∘ f g \circ f g ∘ f 为:
g ( f ( x ) ) = C ( A x + b ) + d = ( C A ) x + ( C b + d ) , g(f(x)) = C(A x + b) + d = (CA) x + (C b + d), g ( f ( x )) = C ( A x + b ) + d = ( C A ) x + ( C b + d ) ,
仍然是仿射函数。仿射函数的逆映射(若存在)也是仿射函数:若 A A A 可逆,则 f − 1 ( y ) = A − 1 ( y − b ) f^{-1}(y) = A^{-1}(y - b) f − 1 ( y ) = A − 1 ( y − b ) 。
在泛函分析 中,哈恩-巴拿赫定理 (Hahn-Banach Theorem) 的核心是确保有界线性泛函可以被延拓——这一延拓通常以仿射函数的形式出现在几何版本(分离超平面定理)中。几何哈恩-巴拿赫定理指出:对于两个不相交的凸集,存在一个仿射函数(即一个超平面)将它们严格分离。这一结论构成了凸分析 中几乎所有对偶理论的逻辑起点。
仿射函数与凸性
仿射函数在凸分析 中具有独特的地位。它同时是凸函数和凹函数,因而也是唯一一类既是凸又是凹的非平凡函数。这一性质意味着仿射函数既是凸优化问题的理想目标函数(因其全局最优解即局部最优解),也是凸约束的理想边界形式(因其水平集是凸集)。
在次梯度 理论中,凸函数 f f f 在点 x 0 x_0 x 0 处的次梯度集合 ∂ f ( x 0 ) \partial f(x_0) ∂ f ( x 0 ) 定义为使得仿射函数 f ( x 0 ) + g ⊤ ( x − x 0 ) f(x_0) + g^\top (x - x_0) f ( x 0 ) + g ⊤ ( x − x 0 ) 成为 f f f 的全局下界的所有 g g g 的集合。换言之,每个次梯度都定义了一个在 x 0 x_0 x 0 处与 f f f 相切的仿射支撑函数。当 f f f 本身是仿射函数时,∂ f ( x 0 ) = { a } \partial f(x_0) = \{a\} ∂ f ( x 0 ) = { a } ——唯一次梯度就是其斜率向量。
综上所述,仿射函数虽在形式上简单,却是连接线性代数、几何、优化理论和机器学习等多个数学分支的枢纽。从预算线到神经网络,从线性规划到支持向量机,仿射函数以其简洁而强大的结构贯穿了现代定量科学的方方面面。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。