ARTICLE

极大似然估计的不变性

极大似然估计的不变性 (Invariance Property of MLE) 极大似然估计的不变性,有时也称为函数不变性 (Functional Invariance) 或重参数化不变性 (Reparametrization Invariance),是极大似然估计 (Maximum Likelihood Estimation, MLE) 方法的一项核心且极

浏览 42 更新 2025-10-22

极大似然估计的不变性 (Invariance Property of MLE)

极大似然估计的不变性,有时也称为函数不变性 (Functional Invariance) 或重参数化不变性 (Reparametrization Invariance),是极大似然估计 (Maximum Likelihood Estimation, MLE) 方法的一项核心且极为实用的性质。该性质指出:如果 θ^\hat{\theta} 是参数 θ\theta 的极大似然估计量,那么对于任意关于 θ\theta 的函数 g(θ)g(\theta),其极大似然估计量就是 g(θ^)g(\hat{\theta})。换言之,极大似然估计在函数变换下保持不变——先估计再变换,与先变换再估计,结果完全一致。

这一性质极大地简化了对参数函数的估计过程。研究者无需为每一个新的目标函数——如参数的平方、对数、倒数、标准差,或更复杂的非线性变换——重新构建并最大化一个全新的似然函数,而可以直接将原参数的估计量代入目标函数,即得到新参数的极大似然估计。这一便利性在实证研究中尤为重要:当我们估计了基础模型的参数后,对任何经济含义上的衍生量(如弹性、比值、福利度量等)的推断均可直接沿用 MLE 的不变性,无需额外计算。

从理论渊源来看,不变性是极大似然估计区别于矩估计 (Method of Moments) 等替代方法的关键优势之一。矩估计量通常不满足函数不变性:参数的非线性函数一般不能用样本矩的同一函数一致地估计,而 MLE 则天然具备这一优雅性质。这也是为什么在结构估计 (Structural Estimation) 中,研究者倾向于使用 MLE——经济理论常常对参数的特定非线性变换(如弹性、边际效应)提出预测,不变性使得这些衍生参数的推断变得直接而可靠。

理论阐述

假设随机样本 X1,X2,,XnX_1, X_2, \dots, X_n 来自一个由参数 θ\theta 决定的概率分布,其概率密度函数(或概率质量函数)为 f(x;θ)f(x; \theta),参数 θ\theta 属于参数空间 Ω\Omega。对应的似然函数为:

L(θx)=i=1nf(xi;θ)L(\theta \mid \mathbf{x}) = \prod_{i=1}^n f(x_i; \theta)

参数 θ\theta 的极大似然估计量 θ^MLE\hat{\theta}_{\text{MLE}} 是使 L(θx)L(\theta \mid \mathbf{x})(或等价地,对数似然函数 lnL(θx)\ln L(\theta \mid \mathbf{x}))达到最大值的那个 θ\theta 值:

θ^MLE=argmaxθΩL(θx)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Omega} L(\theta \mid \mathbf{x})

不变性定理:若 θ^MLE\hat{\theta}_{\text{MLE}}θ\theta 的极大似然估计量,且 τ=g(θ)\tau = g(\theta) 是定义在参数空间 Ω\Omega 上的任意函数,则 τ\tau 的极大似然估计量为:

τ^MLE=g(θ^MLE)\hat{\tau}_{\text{MLE}} = g(\hat{\theta}_{\text{MLE}})

该定理对 gg 的要求极为宽松:gg 可以是任意函数,既不需要是一对一的,也不需要是连续的,甚至不需要是显式可逆的。只要 θ^\hat{\theta} 被良好定义,g(θ^)g(\hat{\theta}) 就是 g(θ)g(\theta) 的 MLE。这一普适性在统计推断中极为宝贵。

证明思路

为了更深刻地理解这一性质,我们区分 gg 是一对一函数与多对一函数两种情形来探讨。

一对一函数情形:当 gg一一映射(双射)时,证明最为直观。此时存在反函数 θ=g1(τ)\theta = g^{-1}(\tau),原似然函数可直接重参数化为 τ\tau 的函数:L(τx)=L(g1(τ)x)L(\tau \mid \mathbf{x}) = L(g^{-1}(\tau) \mid \mathbf{x})。最大化 L(τx)L(\tau \mid \mathbf{x}) 等价于找到使 L(θx)L(\theta \mid \mathbf{x}) 最大的 θ^\hat{\theta},再取 τ^=g(θ^)\hat{\tau} = g(\hat{\theta})。典型例子包括从方差 σ2\sigma^2 到标准差 σ=σ2\sigma = \sqrt{\sigma^2} 的变换——这是一个从正实数到正实数的一一映射——以及从成功概率 p(0,1)p \in (0,1) 到对数发生比 lnp1p(,)\ln\frac{p}{1-p} \in (-\infty, \infty) 的 Logit 变换。

一般情形(多对一函数):当多个不同的 θ\theta 值对应同一个 τ\tau 值时,需要更细致的处理。核心工具是诱导似然函数 (Induced Likelihood Function)。对任意 τ\tau,定义集合 Sτ={θΩg(θ)=τ}S_\tau = \{\theta \in \Omega \mid g(\theta) = \tau\},则 τ\tau 的诱导似然为:

L(τx)=supθSτL(θx)L^*(\tau \mid \mathbf{x}) = \sup_{\theta \in S_\tau} L(\theta \mid \mathbf{x})

即取所有能产生该 τ\tau 值的 θ\theta 所对应的似然值的上确界。令 τ^=g(θ^)\hat{\tau} = g(\hat{\theta})。由于 θ^Sτ^\hat{\theta} \in S_{\hat{\tau}}θ^\hat{\theta} 是全局最大值点,有:

L(τ^x)=supθSτ^L(θx)=L(θ^x)L^*(\hat{\tau} \mid \mathbf{x}) = \sup_{\theta \in S_{\hat{\tau}}} L(\theta \mid \mathbf{x}) = L(\hat{\theta} \mid \mathbf{x})

对任意 ττ^\tau' \neq \hat{\tau}SτS_{\tau'} 中的任意元素 θ\theta' 都满足 L(θx)L(θ^x)L(\theta' \mid \mathbf{x}) \le L(\hat{\theta} \mid \mathbf{x}),故:

L(τx)=supθSτL(θx)L(θ^x)=L(τ^x)L^*(\tau' \mid \mathbf{x}) = \sup_{\theta \in S_{\tau'}} L(\theta \mid \mathbf{x}) \le L(\hat{\theta} \mid \mathbf{x}) = L^*(\hat{\tau} \mid \mathbf{x})

因此 τ^=g(θ^)\hat{\tau} = g(\hat{\theta}) 确实使诱导似然函数达到最大,不变性在完全一般的情形下成立。这一证明揭示了不变性的本质:MLE 不关心参数的"标签",只关心不同参数值所赋予数据的相对似然程度。

应用实例

实例一:正态分布。设样本来自正态分布 N(μ,σ2)N(\mu, \sigma^2),已知 μ^MLE=Xˉ=1nXi\hat{\mu}_{\text{MLE}} = \bar{X} = \frac{1}{n}\sum X_i样本均值),σ^MLE2=1n(XiXˉ)2\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum (X_i - \bar{X})^2。根据不变性:

  • 标准差 σ=σ2\sigma = \sqrt{\sigma^2} 的 MLE 为 σ^MLE=σ^MLE2\hat{\sigma}_{\text{MLE}} = \sqrt{\hat{\sigma}^2_{\text{MLE}}}
  • 变异系数 CV=σ/μCV = \sigma/\mu 的 MLE 为 CV^=σ^/Xˉ\widehat{CV} = \hat{\sigma}/\bar{X}
  • 信噪比 μ/σ\mu/\sigma 的 MLE 为 Xˉ/σ^\bar{X}/\hat{\sigma}

所有这些衍生参数的估计量均无需重新最大化似然函数即可直接得到,极大简化了统计推断的工作量。

实例二:伯努利分布与分类模型。设样本来自伯努利分布 Bernoulli(p)Bernoulli(p)p^MLE=Xˉ\hat{p}_{\text{MLE}} = \bar{X}(样本中成功的比例)。发生比 (Odds) τ=p/(1p)\tau = p/(1-p) 的 MLE 为 τ^=Xˉ/(1Xˉ)\hat{\tau} = \bar{X}/(1-\bar{X});对数发生比 lnτ\ln \tau 的 MLE 为 ln[Xˉ/(1Xˉ)]\ln[\bar{X}/(1-\bar{X})]。在Logistic回归中,对数发生比是连接线性预测变量与概率的核心参数——模型直接估计的是对数发生比,而不变性确保由此反推出的成功概率 p^=eβ^X/(1+eβ^X)\hat{p} = e^{\hat{\beta}X}/(1+e^{\hat{\beta}X}) 同样是 pp 的 MLE。

实例三:Poisson 分布。样本来自泊松分布 Poisson(λ)Poisson(\lambda)λ^=Xˉ\hat{\lambda} = \bar{X}。若我们关心事件不发生的概率 P(Y=0)=eλP(Y=0) = e^{-\lambda},其 MLE 直接为 eXˉe^{-\bar{X}},无需另行估计。

重要注意事项:不变性不保持无偏性

尽管不变性强大而便利,学习者必须注意其关键限制:不变性不保持无偏性。若 θ^\hat{\theta}无偏估计量(即 E[θ^]=θ\mathbb{E}[\hat{\theta}] = \theta)且 gg 是非线性函数,则一般 E[g(θ^)]g(E[θ^])=g(θ)\mathbb{E}[g(\hat{\theta})] \neq g(\mathbb{E}[\hat{\theta}]) = g(\theta),即 g(θ^)g(\hat{\theta}) 通常是 g(θ)g(\theta)有偏估计量。这是期望算子仅在线性变换下与函数可交换这一基本事实的推论。

典型例子:正态分布中 σ^MLE2=1n(XiXˉ)2\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum (X_i - \bar{X})^2σ2\sigma^2 的有偏估计量(E[σ^2]=n1nσ2\mathbb{E}[\hat{\sigma}^2] = \frac{n-1}{n}\sigma^2),而众所周知的样本方差 S2=1n1(XiXˉ)2S^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2 才是无偏的。进一步,由詹森不等式 (Jensen's Inequality),对凹函数 \sqrt{\cdot}E[σ^]=E[σ^2]E[σ^2]=n1nσ<σ\mathbb{E}[\hat{\sigma}] = \mathbb{E}[\sqrt{\hat{\sigma}^2}] \le \sqrt{\mathbb{E}[\hat{\sigma}^2]} = \sqrt{\frac{n-1}{n}}\sigma < \sigma,故 σ^MLE\hat{\sigma}_{\text{MLE}} 也是 σ\sigma 的有偏估计量,且倾向于系统性地低估真实的总体标准差。

这一揭示说明了不同估计准则之间的权衡:MLE 提供了系统的方法论和优良的渐近性质(如不变性和一致性),但并不总是提供有限样本下的无偏或最小方差估计。研究者需根据具体问题在无偏性和其他准则(如均方误差、计算便利性)之间做出判断。

不过值得庆幸的是,极大似然估计的另一个核心性质——一致性 (Consistency)——在温和条件下可通过连续函数得以保持。若 gg 连续,由连续映射定理 (Continuous Mapping Theorem),θ^\hat{\theta} 依概率收敛至 θ\theta 可保证 g(θ^)g(\hat{\theta}) 依概率收敛至 g(θ)g(\theta)。这意味着在大样本环境下,不变性所提供的便捷估计不仅在计算上是合法的,在渐近意义上也是可靠的:当样本量趋于无穷时,估计量终将收敛至真实参数值。