知经 KNOWECON · 卓越的经济金融统计数学学习平台

极大似然估计的不变性

# 极大似然估计的不变性 (Invariance Property of Maximum Likelihood Estimators)

极大似然估计的不变性,有时也称为 极大似然估计的函数不变性 (Functional Invariance) 或 重参数化不变性 (Reparametrization Invariance),是{{{极大似然估计}}} (Maximum Likelihood Estimation, MLE) 方法的一项核心且极为有用的性质。该性质指出,如果 $\hat{\theta}$ 是参数 $\theta$ 的极大似然估计量,那么对于任何关于 $\theta$ 的函数 $g(\theta)$,其极大似然估计量就是 $g(\hat{\theta})$。

这一性质极大地简化了对{{{参数}}}函数的估计过程。我们无需为每一个新的目标函数(如参数的平方、对数或标准差等)重新构建并最大化一个新的{{{似然函数}}},而可以直接将原参数的{{{估计量}}}代入该函数即可得到新的估计量。

## 理论阐述

假设我们有一个随机样本 $X_1, X_2, \dots, X_n$,其来自一个由参数 $\theta$ 决定的概率分布,该分布的概率密度函数(或概率质量函数)为 $f(x; \theta)$。其中 $\theta$ 属于{{{参数空间}}} $\Omega$。

对应的{{{似然函数}}}为: $$ L(\theta | \mathbf{x}) = \prod_{i=1}^n f(x_i; \theta) $$ 参数 $\theta$ 的极大似然估计量 $\hat{\theta}_{\text{MLE}}$ 是使得 $L(\theta | \mathbf{x})$(或等价地,{{{对数似然函数}}} $\ln L(\theta | \mathbf{x})$)达到最大值的那个 $\theta$ 值。

$$ \hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Omega} L(\theta | \mathbf{x}) $$

不变性定理:若 $\hat{\theta}_{\text{MLE}}$ 是 $\theta$ 的极大似然估计量,且 $\tau = g(\theta)$ 是一个定义在参数空间 $\Omega$ 上的函数,那么 $\tau$ 的极大似然估计量 $\hat{\tau}_{\text{MLE}}$ 为: $$ \hat{\tau}_{\text{MLE}} = g(\hat{\theta}_{\text{MLE}}) $$

## 原理与证明

为了更深刻地理解这个性质,我们来探讨其背后的逻辑。我们通常会区分函数 $g$ 是否为{{{一对一函数}}},但这只是为了直观理解,该性质在更一般的情况下也成立。

### 证明思路 (非一对一函数的一般情况)

更严谨的证明需要处理 $g(\theta)$ 是多对一函数的情况。其核心思想是定义一个基于 $\tau$ 的 诱导似然函数 (Induced Likelihood Function)。

1. 定义诱导似然函数:对于参数 $\tau$ 的某个特定值,可能存在多个 $\theta$ 值与之对应。我们定义参数 $\tau$ 的似然值为所有能产生该 $\tau$ 值的 $\theta$ 所对应的似然值的上确界(Supremum)。 对于任意一个 $\tau$ 值,我们定义一个集合 $S_\tau = \{\theta \in \Omega \mid g(\theta) = \tau\}$。 $\tau$ 的诱导似然函数 $L^*(\tau | \mathbf{x})$ 定义为: $$ L^*(\tau | \mathbf{x}) = \sup_{\theta \in S_\tau} L(\theta | \mathbf{x}) $$ 我们的目标是找到使 $L^*(\tau | \mathbf{x})$ 最大化的 $\hat{\tau}$。

2. 寻找最大值: * 我们已知 $\hat{\theta}$ 是使 $L(\theta | \mathbf{x})$ 达到全局最大值的点,即对于任意 $\theta \in \Omega$,都有 $L(\theta | \mathbf{x}) \le L(\hat{\theta} | \mathbf{x})$。 * 令 $\hat{\tau} = g(\hat{\theta})$。根据定义,$\hat{\theta}$ 是集合 $S_{\hat{\tau}}$ 中的一个元素。 * 我们来计算在 $\hat{\tau}$ 处的诱导似然值: $$ L^*(\hat{\tau} | \mathbf{x}) = \sup_{\theta \in S_{\hat{\tau}}} L(\theta | \mathbf{x}) $$ 由于 $\hat{\theta} \in S_{\hat{\tau}}$,并且 $L(\hat{\theta} | \mathbf{x})$ 是全局最大值,那么在 $S_{\hat{\tau}}$ 这个子集上的上确界必然就是 $L(\hat{\theta} | \mathbf{x})$。所以,$L^*(\hat{\tau} | \mathbf{x}) = L(\hat{\theta} | \mathbf{x})$。 * 现在考虑任何其他的 $\tau' \neq \hat{\tau}$。其诱导似然值为: $$ L^*(\tau' | \mathbf{x}) = \sup_{\theta \in S_{\tau'}} L(\theta | \mathbf{x}) $$ 由于集合 $S_{\tau'}$ 中的任何元素 $\theta'$ 都满足 $L(\theta' | \mathbf{x}) \le L(\hat{\theta} | \mathbf{x})$,因此这个集合的上确界也必然小于或等于 $L(\hat{\theta} | \mathbf{x})$。 $$ L^*(\tau' | \mathbf{x}) \le L(\hat{\theta} | \mathbf{x}) = L^*(\hat{\tau} | \mathbf{x}) $$ * 这就证明了 $\hat{\tau} = g(\hat{\theta})$ 是使诱导似然函数 $L^*(\tau | \mathbf{x})$ 达到最大值的点。因此,根据极大似然的定义,$\hat{\tau}_{\text{MLE}} = g(\hat{\theta}_{\text{MLE}})$。

## 应用实例

不变性最强大的地方在于其应用上的便捷性。

### 实例一:正态分布的参数

假设样本 $X_1, \dots, X_n$ 来自{{{正态分布}}} $N(\mu, \sigma^2)$。我们知道参数 $\mu$ 和 $\sigma^2$ 的极大似然估计量分别是: * $\hat{\mu}_{\text{MLE}} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ ({{{样本均值}}}) * $\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2$

1. 估计标准差 $\sigma$: {{{标准差}}} $\sigma$ 是方差 $\sigma^2$ 的函数:$\sigma = g(\sigma^2) = \sqrt{\sigma^2}$。根据不变性,$\sigma$ 的极大似然估计量为: $$ \hat{\sigma}_{\text{MLE}} = g(\hat{\sigma}^2_{\text{MLE}}) = \sqrt{\hat{\sigma}^2_{\text{MLE}}} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2} $$ 我们不需要重新对以 $\sigma$ 为参数的似然函数进行最大化。

2. 估计变异系数 $CV = \sigma/\mu$: {{{变异系数}}} 是 $(\mu, \sigma^2)$ 的函数:$CV = g(\mu, \sigma^2) = \frac{\sqrt{\sigma^2}}{\mu}$。根据不变性,其极大似然估计量为: $$ \widehat{CV}_{\text{MLE}} = g(\hat{\mu}_{\text{MLE}}, \hat{\sigma}^2_{\text{MLE}}) = \frac{\sqrt{\hat{\sigma}^2_{\text{MLE}}}}{\hat{\mu}_{\text{MLE}}} = \frac{\sqrt{\frac{1}{n}\sum(X_i-\bar{X})^2}}{\bar{X}} $$

### 实例二:伯努利分布的参数

假设样本 $X_1, \dots, X_n$ 来自{{{伯努利分布}}} $Bernoulli(p)$,其中 $p$ 是成功的概率。$p$ 的极大似然估计量为样本均值 $\hat{p}_{\text{MLE}} = \bar{X}$。

现在,我们想估计{{{发生比}}} (Odds),其定义为 $\tau = \frac{p}{1-p}$。 这是一个关于 $p$ 的函数 $\tau = g(p) = \frac{p}{1-p}$。根据不变性,发生比的极大似然估计量为: $$ \hat{\tau}_{\text{MLE}} = g(\hat{p}_{\text{MLE}}) = \frac{\hat{p}_{\text{MLE}}}{1-\hat{p}_{\text{MLE}}} = \frac{\bar{X}}{1-\bar{X}} $$

## 重要注意事项

尽管不变性非常强大,但学习者必须注意其一个重要限制:不变性不保持无偏性

* 一个估计量的无偏性 (Unbiasedness) 是指其{{{期望}}}值等于被估计的真实参数值,即 $E[\hat{\theta}] = \theta$。 * 如果 $\hat{\theta}$ 是一个{{{无偏估计量}}},并且 $g$ 是一个非线性函数,那么 $g(\hat{\theta})$ 通常不是 $g(\theta)$ 的无偏估计量。这是因为期望算子 $E[\cdot]$ 是线性的,通常 $E[g(\hat{\theta})] \neq g(E[\hat{\theta}])$。

示例:在正态分布的例子中,$\hat{\mu}_{\text{MLE}} = \bar{X}$ 是 $\mu$ 的一个无偏估计量。然而: * $\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum(X_i - \bar{X})^2$ 却是 $\sigma^2$ 的一个{{{有偏估计量}}}。其期望为 $E[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2 \neq \sigma^2$。众所周知的{{{样本方差}}} $S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2$ 才是无偏估计量。 * 根据{{{詹森不等式}}} (Jensen's Inequality),对于凹函数(如平方根函数),$E[\sqrt{Y}] \le \sqrt{E[Y]}$。因此,$E[\hat{\sigma}_{\text{MLE}}] = E[\sqrt{\hat{\sigma}^2_{\text{MLE}}}] \le \sqrt{E[\hat{\sigma}^2_{\text{MLE}}]} = \sqrt{\frac{n-1}{n}}\sigma < \sigma$。所以 $\hat{\sigma}_{\text{MLE}}$ 也是 $\sigma$ 的一个有偏估计量。

这个事实揭示了不同估计准则之间的权衡。极大似然估计提供了一套系统的方法和优良的性质(如不变性和渐近性质),但它并不总是能提供在有限样本下具有最小方差或无偏性的估计量。

不过,值得一提的是,极大似然估计量的另一重要性质——{{{一致性}}} (Consistency)——通常可以通过函数变换得以保持。如果 $g$ 是一个连续函数,根据{{{连续映射定理}}} (Continuous Mapping Theorem),$\hat{\theta}_{\text{MLE}}$ 的一致性可以保证 $g(\hat{\theta}_{\text{MLE}})$ 也是一致的。这意味着当样本量趋于无穷大时,估计量会收敛到真实值。