ARTICLE

链式法则

链式法则(Chain Rule)是微积分中用于计算复合函数(Composite Function)导数的基本规则,也是整个微分学中最重要且应用最广泛的求导法则之一。如果一个函数是由两个或多个更简单的函数复合而成,链式法则提供了一种系统性的方法来求其导数。该法则在纯数学、物理学、工程学、经济学以及机器学习等领域中都有着至关重要的应用。其核心思想可以简明地概括为

浏览 85 更新 2025-11-08

链式法则(Chain Rule)是微积分中用于计算复合函数(Composite Function)导数的基本规则,也是整个微分学中最重要且应用最广泛的求导法则之一。如果一个函数是由两个或多个更简单的函数复合而成,链式法则提供了一种系统性的方法来求其导数。该法则在纯数学、物理学、工程学、经济学以及机器学习等领域中都有着至关重要的应用。其核心思想可以简明地概括为:一个复合函数的变化率,等于其外部函数相对于其内部函数的变动率,乘以内部函数相对于其自变量的变动率。

1. 核心概念与直观理解

我们可以将复合函数 h(x)=f(g(x)) h(x) = f(g(x)) 理解为一个"函数中的函数"。想象一条生产线:一个变量 x x 先经过机器 g g 的加工,产出中间产品 g(x) g(x) ;接着,这个中间产品 g(x) g(x) 再被送入机器 f f 进行最终加工,产出最终产品 f(g(x)) f(g(x)) 。链式法则就是用来计算最终产品相对于最初原材料 x x 的变化率。

我们可以用一个关于变动率的简单例子来直观理解:假设开车速度 y y 取决于油门深度 u u ,即 y=f(u) y = f(u) ,而油门深度 u u 又随时间 t t 变化,即 u=g(t) u = g(t) 。我们想知道车速 y y 如何随时间 t t 变化,求 dydt \frac{dy}{dt} dydu \frac{dy}{du} (即 f(u) f'(u) )表示车速相对于油门深度的变化率;dudt \frac{du}{dt} (即 g(t) g'(t) )表示油门深度相对于时间的变化率。逻辑上,车速随时间的变化率是这两个变化率的乘积。例如,每深踩 1 厘米油门让车速增加 10 公里每小时,每秒多踩 2 厘米,则车速每秒增加 10×2=20 10 \times 2 = 20 公里每小时。这正是链式法则的精髓:

dydt=dydududt\frac{dy}{dt} = \frac{dy}{du} \cdot \frac{du}{dt}

2. 形式化定义与表示法

链式法则有两种常见的表示方法:拉格朗日表示法和莱布尼茨表示法。

一、拉格朗日表示法(Lagrange's Notation)

如果一个函数 h(x) h(x) 可以表示为 h(x)=f(g(x)) h(x) = f(g(x)) ,其中 f f g g 均为可微函数,则 h(x) h(x) 的导数 h(x) h'(x) 为:

h(x)=f(g(x))g(x)h'(x) = f'(g(x)) \cdot g'(x)

这里的关键点在于:首先求出外部函数 f f 的导数 f f' ,然后将内部函数 g(x) g(x) 原封不动地代入到 f f' 中,这是初学者最容易出错的地方,常见的错误是直接计算 f(x) f'(x) 而非 f(g(x)) f'(g(x)) 。然后乘以内部函数 g(x) g(x) 的导数。口诀可以记为:"外导内不导,再乘内导。"

二、莱布尼茨表示法(Leibniz's Notation)

如果我们定义 y=f(u) y = f(u) 并且 u=g(x) u = g(x) ,那么 y y 对于 x x 的导数可以表示为:

dydx=dydududx\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

这种表示法非常直观,形式上看起来就像是 du du 被"约分"了。虽然这并非严格的代数约分——因为 dydu \frac{dy}{du} 是一个整体的符号,代表基于极限的导数——但它是一个非常有用的记忆工具。莱布尼茨表示法的优势在于它清晰地揭示了导数的链式结构,使得多层复合函数的求导变得一目了然。

3. 分步应用与示例解析

应用链式法则求解导数通常遵循四个步骤:首先识别内外函数,将给定的复合函数分解为外部函数 f(u) f(u) 和内部函数 u=g(x) u = g(x) ;然后求外部函数的导数 dydu=f(u) \frac{dy}{du} = f'(u) ;接着求内部函数的导数 dudx=g(x) \frac{du}{dx} = g'(x) ;最后相乘并代回,将第二步结果中的 u u g(x) g(x) 替换,乘以第三步的结果。

示例一:幂函数与多项式的复合

求函数 h(x)=(x2+5)3 h(x) = (x^2 + 5)^3 的导数。外部函数为 f(u)=u3 f(u) = u^3 ,内部函数为 u=g(x)=x2+5 u = g(x) = x^2 + 5 。外部导数为 f(u)=3u2 f'(u) = 3u^2 ,内部导数为 g(x)=2x g'(x) = 2x ,相乘得 h(x)=3(x2+5)2(2x)=6x(x2+5)2 h'(x) = 3(x^2 + 5)^2 \cdot (2x) = 6x(x^2 + 5)^2

示例二:三角函数与幂函数的复合

求函数 h(x)=cos(4x3) h(x) = \cos(4x^3) 的导数。外部函数为 f(u)=cos(u) f(u) = \cos(u) ,内部函数为 u=g(x)=4x3 u = g(x) = 4x^3 。外部导数为 f(u)=sin(u) f'(u) = -\sin(u) ,内部导数为 g(x)=12x2 g'(x) = 12x^2 ,相乘得 h(x)=sin(4x3)(12x2)=12x2sin(4x3) h'(x) = -\sin(4x^3) \cdot (12x^2) = -12x^2\sin(4x^3)

示例三:多层复合函数

求函数 h(x)=esin(x2) h(x) = e^{\sin(x^2)} 的导数,这是一个三层复合函数 f(g(k(x))) f(g(k(x))) 。使用莱布尼茨表示法,令 y=eu y = e^u u=sin(v) u = \sin(v) v=x2 v = x^2 ,则 dydx=dydududvdvdx \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dv} \cdot \frac{dv}{dx} dydu=eu=esin(x2) \frac{dy}{du} = e^u = e^{\sin(x^2)} dudv=cos(v)=cos(x2) \frac{du}{dv} = \cos(v) = \cos(x^2) dvdx=2x \frac{dv}{dx} = 2x ,三者相乘得 h(x)=2xcos(x2)esin(x2) h'(x) = 2x \cos(x^2) e^{\sin(x^2)}

示例四:隐函数求导

链式法则在隐函数求导中同样扮演关键角色。考虑方程 x2+y2=25 x^2 + y^2 = 25 ,求 dydx \frac{dy}{dx} 。对方程两边同时对 x x 求导,将 y y 视为 x x 的函数,则对 y2 y^2 求导需使用链式法则:ddx(y2)=2ydydx \frac{d}{dx}(y^2) = 2y \cdot \frac{dy}{dx} 。由此可得 2x+2ydydx=0 2x + 2y \frac{dy}{dx} = 0 ,解得 dydx=xy \frac{dy}{dx} = -\frac{x}{y} 。这一技巧在无法显式解出 y y 的情况下尤为实用。

4. 多变量扩展

链式法则可以自然地扩展到多元微积分,这是其在经济金融等领域应用的基础。考虑一个函数 z=f(x,y) z = f(x, y) ,其中 x x y y 本身都是另一个变量 t t 的函数,即 x=x(t) x = x(t) y=y(t) y = y(t) 。那么 z z 相对于 t t 的全导数为:

dzdt=fxdxdt+fydydt\frac{dz}{dt} = \frac{\partial f}{\partial x}\frac{dx}{dt} + \frac{\partial f}{\partial y}\frac{dy}{dt}

fx \frac{\partial f}{\partial x} fy \frac{\partial f}{\partial y} 是偏导数,分别表示保持其他变量不变时 z z 相对于 x x y y 的变化率。t t 的变化通过两条路径影响 z z :通过 x x 和通过 y y z z 的总变化率是两条路径影响之和。更一般地,若 z=f(x1,,xn) z = f(x_1, \dots, x_n) 且各 xi x_i t t 的函数,则 dzdt=i=1nfxidxidt \frac{dz}{dt} = \sum_{i=1}^n \frac{\partial f}{\partial x_i} \frac{dx_i}{dt} ,体现了多元系统下各路径效应的叠加。这一思想在动态优化、最优控制等高级领域中被广泛使用。

经济学应用示例: 假设公司利润 Π \Pi 是产出量 q q 和广告支出 a a 的函数,Π=f(q,a) \Pi = f(q, a) ,且 q(t) q(t) a(t) a(t) 都随时间变化。利润随时间的变化率 dΠdt \frac{d\Pi}{dt} 可用链式法则计算为 dΠdt=Πqdqdt+Πadadt \frac{d\Pi}{dt} = \frac{\partial \Pi}{\partial q}\frac{dq}{dt} + \frac{\partial \Pi}{\partial a}\frac{da}{dt} Πq \frac{\partial \Pi}{\partial q} 是销售边际利润,dqdt \frac{dq}{dt} 是产出变化率;Πa \frac{\partial \Pi}{\partial a} 是广告边际利润,dadt \frac{da}{dt} 是广告支出变化率。总利润的变化是"产出渠道"和"广告渠道"变化之和,管理者可根据两个渠道的相对贡献动态调整策略。类似的分析框架可推广至投资组合中不同资产权重调整对组合收益的影响、生产要素价格变动对生产成本的多渠道传导等。

5. 历史渊源与证明思路

链式法则的思想渊源可追溯至莱布尼茨和牛顿对微积分的早期探索。莱布尼茨在1676年的手稿中就明确表述了复合函数微分的基本规则,他的记号法天然地揭示了链式结构的乘积关系。牛顿则以其流数术体系处理了类似问题。

从严格分析学角度看,链式法则的证明基于极限定义。设 h(x)=f(g(x)) h(x) = f(g(x)) ,则 h(x)=limΔx0f(g(x+Δx))f(g(x))Δx h'(x) = \lim_{\Delta x \to 0} \frac{f(g(x+\Delta x)) - f(g(x))}{\Delta x} 。令 u=g(x) u = g(x) Δu=g(x+Δx)g(x) \Delta u = g(x+\Delta x) - g(x) ,当 Δx0 \Delta x \to 0 Δu0 \Delta u \to 0 (由 g g 的连续性保证),上式可改写为 limΔx0f(u+Δu)f(u)ΔuΔuΔx=f(u)g(x) \lim_{\Delta x \to 0} \frac{f(u+\Delta u) - f(u)}{\Delta u} \cdot \frac{\Delta u}{\Delta x} = f'(u) \cdot g'(x) 。严格的证明还需要处理 Δu=0 \Delta u = 0 的特殊情形,但上述推导抓住了核心思路。

链式法则的应用远远超出了纯数学范畴,在多个学科中发挥着基石性作用。在经济学与金融学中,动态优化问题如消费者的跨期效用最大化需使用链式法则;伊藤引理是链式法则在随机分析中的推广,是布莱克-舒尔斯模型的基石。在机器学习中,链式法则是训练神经网络的核心算法——反向传播的数学基础,损失函数关于成千上万个权重参数的梯度正是通过链式法则逐层高效计算的。在物理学与工程学中,链式法则广泛应用于求解变量代换的微分方程、计算流体力学中的物质导数以及分析热力学状态变量间的依赖关系。

6. 常见错误与注意事项

在学习和使用链式法则时,初学者容易犯以下几类错误:第一,遗漏内部导数的乘法,只求了外部导数 f(g(x)) f'(g(x)) ,却忘记乘以内部函数的导数 g(x) g'(x) ,牢记"外导内不导,再乘内导"的口诀可避免。第二,误将自变量直接替换,求出 f(u) f'(u) 后将 u u 替换为 x x 而非 g(x) g(x) ,应把 g(x) g(x) 整体代入外部导数。第三,多层复合遗漏中间层,对于三层及以上复合函数漏掉中间某层的导数,建议逐层推进切勿跳步。第四,混淆全导数与偏导数,在多变量情境下导致错误,自变量直接出现时用偏导符号,通过中间变量间接影响时用全导数符号。第五,忽视可微性条件,链式法则要求内外函数在所讨论点均可微,应用前应确认,若某点处函数不可微则链式法则不再适用。

掌握链式法则的关键在于对函数结构的清晰辨析与多加练习,从两层复合开始逐步过渡到多层复合和多变量情形,循序渐进是最有效的学习路径。链式法则作为微积分大厦的基石之一,其重要性在高等数学、科学计算和工程应用中不断被印证。