多元标量函数 (Multivariate Scalar Function)
多元标量函数 ,亦称多变量实值函数,是指定义在 R n \mathbb{R}^n R n 的某个子集上、取值于 R \mathbb{R} R 的映射:
f : D ⊆ R n → R , ( x 1 , x 2 , … , x n ) ↦ f ( x 1 , x 2 , … , x n ) f: D \subseteq \mathbb{R}^n \to \mathbb{R}, \quad (x_1, x_2, \dots, x_n) \mapsto f(x_1, x_2, \dots, x_n) f : D ⊆ R n → R , ( x 1 , x 2 , … , x n ) ↦ f ( x 1 , x 2 , … , x n )
其中 D D D 为函数的定义域,R \mathbb{R} R 为值域。与多元向量函数 不同,多元标量函数的输出始终是一个单一的实数,这使得它在经济学、物理学和工程学中具有最基础、最广泛的地位。在经济学中,效用函数 、生产函数 、成本函数 和利润函数 几乎无一例外地都是多元标量函数——它们接受多个投入变量(如资本、劳动、价格),输出一个标量结果(如效用水平、产出数量、成本额或利润额)。
几何直观
相比于一元函数 y = f ( x ) y = f(x) y = f ( x ) 可在二维平面上绘制一条曲线,多元标量函数需要更高维度的表示手段。
二元函数:曲面
当 n = 2 n = 2 n = 2 时,函数 z = f ( x , y ) z = f(x, y) z = f ( x , y ) 可在三维空间中表示为一个曲面:x y xy x y -平面上的每一点 ( x , y ) (x, y) ( x , y ) 对应高度 z = f ( x , y ) z = f(x, y) z = f ( x , y ) 。例如 z = x 2 + y 2 z = x^2 + y^2 z = x 2 + y 2 是一个开口向上的旋转抛物面,而 z = x 2 + y 2 z = \sqrt{x^2 + y^2} z = x 2 + y 2 是一个圆锥面。这类几何直观是理解更一般的 n n n 元函数的门户。
等高线与水平集
对于无法直接可视化的高维函数(n ≥ 3 n \ge 3 n ≥ 3 时),水平集 (Level Set)是至关重要的分析工具。给定常数 c ∈ R c \in \mathbb{R} c ∈ R ,函数 f f f 的水平集定义为:
L c ( f ) = { x ∈ D ∣ f ( x ) = c } L_c(f) = \{ \mathbf{x} \in D \mid f(\mathbf{x}) = c \} L c ( f ) = { x ∈ D ∣ f ( x ) = c }
当 n = 2 n = 2 n = 2 时,水平集即为地图学中的等高线(Contour Line):同一曲线上所有点对应相同的函数值。例如,柯布-道格拉斯生产函数 Q = A K α L 1 − α Q = A K^\alpha L^{1-\alpha} Q = A K α L 1 − α 的等产量线(Isoquant)就是其水平集——每条曲线上的资本 K K K 与劳动 L L L 组合产生完全相同的产量 Q Q Q 。当 n = 3 n = 3 n = 3 时,水平集成为等值面(Isosurface),在物理学 中常见于势能场的等势面。
图形(Graph)
函数 f : D ⊆ R n → R f: D \subseteq \mathbb{R}^n \to \mathbb{R} f : D ⊆ R n → R 的图形定义为 R n + 1 \mathbb{R}^{n+1} R n + 1 中的点集:
Graph ( f ) = { ( x , f ( x ) ) ∣ x ∈ D } ⊆ R n + 1 \text{Graph}(f) = \{ (\mathbf{x}, f(\mathbf{x})) \mid \mathbf{x} \in D \} \subseteq \mathbb{R}^{n+1} Graph ( f ) = {( x , f ( x )) ∣ x ∈ D } ⊆ R n + 1
在经济学中,偏好 的效用表示本质上就是利用多元标量函数的图形性质:无差异曲线是效用函数的水平集,而效用函数的图形则是一个 n + 1 n+1 n + 1 维的超曲面。
极限与连续性
多元标量函数的极限比一元情形复杂得多,因为自变量可以沿无限多条路径趋近于目标点。
极限的定义
设 f : D ⊆ R n → R f: D \subseteq \mathbb{R}^n \to \mathbb{R} f : D ⊆ R n → R ,a \mathbf{a} a 是 D D D 的聚点。称当 x → a \mathbf{x} \to \mathbf{a} x → a 时 f ( x ) f(\mathbf{x}) f ( x ) 以 L L L 为极限:
lim x → a f ( x ) = L \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L x → a lim f ( x ) = L
其严格定义为:对任意 ε > 0 \varepsilon > 0 ε > 0 ,存在 δ > 0 \delta > 0 δ > 0 ,使得当 0 < ∥ x − a ∥ < δ 0 < \|\mathbf{x} - \mathbf{a}\| < \delta 0 < ∥ x − a ∥ < δ 且 x ∈ D \mathbf{x} \in D x ∈ D 时,恒有 ∣ f ( x ) − L ∣ < ε |f(\mathbf{x}) - L| < \varepsilon ∣ f ( x ) − L ∣ < ε 。这里的 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 通常取欧几里得范数 ∥ x − a ∥ = ∑ i = 1 n ( x i − a i ) 2 \|\mathbf{x} - \mathbf{a}\| = \sqrt{\sum_{i=1}^n (x_i - a_i)^2} ∥ x − a ∥ = ∑ i = 1 n ( x i − a i ) 2 。
路径依赖与不存在极限
一元极限只需检查左右两个方向,多元极限则要求沿任意路径 都趋于同一值。这使得证明极限不存在往往比证明极限存在更简单:只需找到两条路径给出不同极限值即可。经典反例如:
f ( x , y ) = x y x 2 + y 2 , ( x , y ) ≠ ( 0 , 0 ) f(x, y) = \frac{xy}{x^2 + y^2}, \quad (x, y) \neq (0, 0) f ( x , y ) = x 2 + y 2 x y , ( x , y ) = ( 0 , 0 )
沿 y = 0 y = 0 y = 0 路径:极限为 0;沿 y = x y = x y = x 路径:极限为 1 2 \frac{1}{2} 2 1 。二值不同,故 lim ( x , y ) → ( 0 , 0 ) f ( x , y ) \lim_{(x,y) \to (0,0)} f(x, y) lim ( x , y ) → ( 0 , 0 ) f ( x , y ) 不存在。在经济建模中,此类非连续行为通常被排除——生产函数和效用函数一般假设为连续的,以保证最优解的存在性(魏尔斯特拉斯定理 )。
连续性
若 lim x → a f ( x ) = f ( a ) \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = f(\mathbf{a}) lim x → a f ( x ) = f ( a ) ,则称 f f f 在 a \mathbf{a} a 处连续。若 f f f 在定义域内每点都连续,则称其为连续函数。连续函数的重要性质包括:紧集上的连续函数必有最大值和最小值(极值定理),且其像集仍为紧集。这为最优化理论 提供了基本的数学保证。
偏导数与梯度
偏导数(Partial Derivative)
多元标量函数对第 i i i 个自变量的偏导数衡量该变量单独变化时函数的变化率,定义为:
∂ f ∂ x i ( a ) = lim h → 0 f ( a 1 , … , a i + h , … , a n ) − f ( a 1 , … , a i , … , a n ) h \frac{\partial f}{\partial x_i}(\mathbf{a}) = \lim_{h \to 0} \frac{f(a_1, \dots, a_i + h, \dots, a_n) - f(a_1, \dots, a_i, \dots, a_n)}{h} ∂ x i ∂ f ( a ) = h → 0 lim h f ( a 1 , … , a i + h , … , a n ) − f ( a 1 , … , a i , … , a n )
计算时将所有其他变量视为常数,直接应用一元求导法则。例如,对于 f ( K , L ) = K α L 1 − α f(K, L) = K^\alpha L^{1-\alpha} f ( K , L ) = K α L 1 − α :
∂ f ∂ K = α K α − 1 L 1 − α , ∂ f ∂ L = ( 1 − α ) K α L − α \frac{\partial f}{\partial K} = \alpha K^{\alpha-1} L^{1-\alpha}, \quad \frac{\partial f}{\partial L} = (1-\alpha) K^\alpha L^{-\alpha} ∂ K ∂ f = α K α − 1 L 1 − α , ∂ L ∂ f = ( 1 − α ) K α L − α
这两者分别正是资本的边际产出 和劳动的边际产出,在经济分析中具有核心地位。
梯度向量(Gradient)
将所有一阶偏导汇聚为一个向量,即得到梯度 :
∇ f ( a ) = ( ∂ f ∂ x 1 ( a ) , ∂ f ∂ x 2 ( a ) , … , ∂ f ∂ x n ( a ) ) \nabla f(\mathbf{a}) = \left( \frac{\partial f}{\partial x_1}(\mathbf{a}), \frac{\partial f}{\partial x_2}(\mathbf{a}), \dots, \frac{\partial f}{\partial x_n}(\mathbf{a}) \right) ∇ f ( a ) = ( ∂ x 1 ∂ f ( a ) , ∂ x 2 ∂ f ( a ) , … , ∂ x n ∂ f ( a ) )
梯度的几何意义极为重要:∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) 指向函数在 a \mathbf{a} a 点上升最快的方向 ,其模长 ∥ ∇ f ( a ) ∥ \|\nabla f(\mathbf{a})\| ∥∇ f ( a ) ∥ 即为该方向上的最大变化率。同时,梯度向量恒垂直于该点的水平集(等高线、等产量线等)。这一性质在经济学中直接导出以下重要结论:
在消费者理论中,边际替代率 (MRS)等于边际效用之比,本质上是无差异曲线(效用水平集)的切线斜率。 在生产理论中,边际技术替代率 (MRTS)等于边际产出之比,由等产量线的梯度正交性决定。 在约束优化中,拉格朗日乘数法 的一阶条件要求目标函数的梯度与约束函数梯度共线。
方向导数(Directional Derivative)
给定单位方向向量 u ∈ R n \mathbf{u} \in \mathbb{R}^n u ∈ R n ,函数在 a \mathbf{a} a 处沿 u \mathbf{u} u 的方向导数定义为:
D u f ( a ) = lim h → 0 f ( a + h u ) − f ( a ) h D_{\mathbf{u}} f(\mathbf{a}) = \lim_{h \to 0} \frac{f(\mathbf{a} + h\mathbf{u}) - f(\mathbf{a})}{h} D u f ( a ) = h → 0 lim h f ( a + h u ) − f ( a )
若 f f f 在 a \mathbf{a} a 处可微,则方向导数可由梯度简便计算:
D u f ( a ) = ∇ f ( a ) ⋅ u = ∥ ∇ f ( a ) ∥ cos θ D_{\mathbf{u}} f(\mathbf{a}) = \nabla f(\mathbf{a}) \cdot \mathbf{u} = \|\nabla f(\mathbf{a})\| \cos \theta D u f ( a ) = ∇ f ( a ) ⋅ u = ∥∇ f ( a ) ∥ cos θ
其中 θ \theta θ 为梯度与方向向量的夹角。由此立即可知:梯度方向 (θ = 0 \theta = 0 θ = 0 ) 给出最大正值方向导数,负梯度方向 (θ = π \theta = \pi θ = π ) 给出最小(最速下降)方向导数。这直接构成了梯度下降法 等数值优化算法的理论基础。
可微性与全微分
偏导数存在并不保证函数可微,这与一元函数有本质区别——一元函数导数存在即意味着可微,多元情形则不然。
多元标量函数 f f f 在 a \mathbf{a} a 处可微 (Differentiable)的严格定义为:存在线性映射 L : R n → R L: \mathbb{R}^n \to \mathbb{R} L : R n → R (由梯度 ∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) 表示),使得
lim ∥ h ∥ → 0 f ( a + h ) − f ( a ) − ∇ f ( a ) ⋅ h ∥ h ∥ = 0 \lim_{\|\mathbf{h}\| \to 0} \frac{f(\mathbf{a} + \mathbf{h}) - f(\mathbf{a}) - \nabla f(\mathbf{a}) \cdot \mathbf{h}}{\|\mathbf{h}\|} = 0 ∥ h ∥ → 0 lim ∥ h ∥ f ( a + h ) − f ( a ) − ∇ f ( a ) ⋅ h = 0
这意味着函数在局部可用一个线性函数(切平面,当 n = 2 n=2 n = 2 时)很好地近似。可微的充分条件 是:所有偏导数存在且在 a \mathbf{a} a 的某邻域内连续(即 f ∈ C 1 f \in C^1 f ∈ C 1 )。
全微分(Total Differential)给出了函数增量的线性近似:
d f = ∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 d x 2 + ⋯ + ∂ f ∂ x n d x n = ∇ f ⋅ d x df = \frac{\partial f}{\partial x_1} dx_1 + \frac{\partial f}{\partial x_2} dx_2 + \cdots + \frac{\partial f}{\partial x_n} dx_n = \nabla f \cdot d\mathbf{x} df = ∂ x 1 ∂ f d x 1 + ∂ x 2 ∂ f d x 2 + ⋯ + ∂ x n ∂ f d x n = ∇ f ⋅ d x
在经济学中,全微分用于比较静态分析 (Comparative Statics):当多个外生变量同时发生微小变化时,内生变量的总变化由全微分刻画。例如,需求函数 Q d = D ( P , I ) Q_d = D(P, I) Q d = D ( P , I ) 的全微分分解了价格变动与收入变动的总需求效应。
二阶偏导数与海森矩阵
二阶偏导数与对称性
函数 f f f 的二阶偏导数记为 ∂ 2 f ∂ x i ∂ x j \frac{\partial^2 f}{\partial x_i \partial x_j} ∂ x i ∂ x j ∂ 2 f 。当先对 x i x_i x i 求导再对 x j x_j x j (或反之)时,若二阶偏导数连续(即 f ∈ C 2 f \in C^2 f ∈ C 2 ),则求导顺序可交换——此即施瓦茨定理 (Clairaut-Schwarz Theorem):
∂ 2 f ∂ x i ∂ x j = ∂ 2 f ∂ x j ∂ x i \frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i} ∂ x i ∂ x j ∂ 2 f = ∂ x j ∂ x i ∂ 2 f
在经济应用中,这一对称性保证了斯卢茨基矩阵 的对称性(需求函数的交叉价格导数对称),以及成本函数对要素价格的二阶偏导对称(谢泼德引理 的推论)。
海森矩阵(Hessian Matrix)
将所有二阶偏导排列成一个 n × n n \times n n × n 方阵,即得到海森矩阵 :
H_f(\mathbf{a}) = \begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\
\frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\
\vdots \& \vdots \& \ddots \& \vdots \\
\frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}
\end{bmatrix}
由施瓦茨定理,H f H_f H f 是对称矩阵。海森矩阵在优化理论中扮演核心角色:
若在临界点 ∇ f ( a ) = 0 \nabla f(\mathbf{a}) = \mathbf{0} ∇ f ( a ) = 0 处 H f ( a ) H_f(\mathbf{a}) H f ( a ) 为正定(所有特征值 > 0),则 a \mathbf{a} a 为严格局部极小点。 若 H f ( a ) H_f(\mathbf{a}) H f ( a ) 为负定(所有特征值 < 0),则 a \mathbf{a} a 为严格局部极大点。 若 H f ( a ) H_f(\mathbf{a}) H f ( a ) 不定(既有正特征值又有负特征值),则 a \mathbf{a} a 为鞍点(Saddle Point)。 若 H f ( a ) H_f(\mathbf{a}) H f ( a ) 半正定或半负定,则需更高阶信息判断。
在经济优化中,海森矩阵的负定性(生产函数在极大值点)或正定性(成本函数在极小值点)是二阶充分条件,确保了所求极值确实是最大值或最小值,而非鞍点。
泰勒展开
多元标量函数在 a \mathbf{a} a 处的二阶泰勒展开为:
f ( a + h ) ≈ f ( a ) + ∇ f ( a ) ⋅ h + 1 2 h T H f ( a ) h f(\mathbf{a} + \mathbf{h}) \approx f(\mathbf{a}) + \nabla f(\mathbf{a}) \cdot \mathbf{h} + \frac{1}{2} \mathbf{h}^T H_f(\mathbf{a}) \mathbf{h} f ( a + h ) ≈ f ( a ) + ∇ f ( a ) ⋅ h + 2 1 h T H f ( a ) h
其中第一项为零阶近似(常数),第二项为一阶(线性)修正,第三项为二阶(二次型)修正。这一展开式是数值优化中牛顿法 的理论基础,也是计量经济学 中非线性模型局部线性化(Delta方法 )的数学依据。
经济学中的核心多元标量函数
多元标量函数是经济学建模的数学"母语"。几个核心实例:
效用函数 U ( x 1 , x 2 , … , x n ) U(x_1, x_2, \dots, x_n) U ( x 1 , x 2 , … , x n ) :将消费束映射为效用水平,其偏导数给出边际效用,梯度方向决定最优消费束的一阶条件,海森矩阵的负定性保证效用最大化二阶条件。生产函数 F ( K , L , M , … ) F(K, L, M, \dots) F ( K , L , M , … ) :描述投入要素与最大产出之间的关系,通常假设单调递增、拟凹、规模报酬可变。CES生产函数 和柯布-道格拉斯函数是其最常见的具体形式。成本函数 C ( w 1 , … , w n , q ) C(w_1, \dots, w_n, q) C ( w 1 , … , w n , q ) :给定要素价格 w i w_i w i 和产量 q q q 时的最小成本,关于要素价格是凹函数(海森矩阵负半定),这是成本最小化的对偶性质。利润函数 π ( p , w 1 , … , w n ) \pi(p, w_1, \dots, w_n) π ( p , w 1 , … , w n ) :给定产出价格 p p p 和要素价格 w i w_i w i 时的最大利润。根据霍特林引理 ,利润函数对价格的偏导数给出供给函数和要素需求函数。支出函数 E ( p 1 , … , p n , U ˉ ) E(p_1, \dots, p_n, \bar{U}) E ( p 1 , … , p n , U ˉ ) :达到给定效用水平所需的最小支出,是消费者对偶理论的核心工具,谢泼德引理 将其价格偏导与希克斯需求联系起来。
这些函数的结构性质(单调性、凹凸性、齐次性、可微性)构成了微观经济理论 的数学骨架。理解多元标量函数的分析工具——梯度、海森矩阵、水平集、泰勒展开——是深入掌握经济理论的必要前提。