# 完备统计量 (Complete Statistic)
完备统计量 (Complete Statistic) 是{{{数理统计}}}中一个深刻且关键的概念,特别是在{{{参数估计}}}理论中扮演着核心角色。它与{{{充分统计量}}} (Sufficient Statistic) 紧密相关,共同构成了寻找最优{{{估计量}}}的理论基石。直观上,一个统计量如果达到了“完备”,意味着它不仅包含了样本中关于未知参数的所有信息(即充分性),而且这些信息被“压缩”到了极致,没有任何多余的、与参数无关的结构性信息。
完备统计量最重要的应用体现在著名的{{{Lehmann-Scheffé定理}}} (Lehmann-Scheffé Theorem) 中,该定理指出,如果一个统计量既是完备的又是充分的,那么任何基于该统计量的无偏估计量都是唯一的一致最小方差无偏估计量 ({{{UMVUE}}})。
## 形式化定义
假设有一个来自参数为 $\theta$ 的概率分布族 $\{ P_\theta : \theta \in \Theta \}$ 的随机样本 $X_1, X_2, \dots, X_n$。设 $T = T(X_1, \dots, X_n)$ 是一个{{{统计量}}}。
我们称统计量 $T$ 对于分布族 $\{ P_\theta : \theta \in \Theta \}$ 是 完备的,如果对于任意可测函数 $g$,只要满足对所有的 $\theta \in \Theta$,都有: $$ E_\theta[g(T)] = 0 $$ 那么必然可以推出,对所有的 $\theta \in \Theta$,都有: $$ P_\theta(g(T) = 0) = 1 $$
定义的解读:
这个定义在形式上可能显得抽象,但其核心思想是关于“零的无偏估计”。
* $E_\theta[g(T)] = 0$ 的意思是,随机变量 $g(T)$ 是“0”的一个{{{无偏估计量}}}。 * 完备性的要求是:对于统计量 $T$ 而言,唯一一个无偏估计“0”的函数 $g(T)$ 只能是 $g(T)$ 本身恒等于零(在{{{概率测度}}}下几乎处处为零)。 * 换句话说,一个完备统计量 $T$ 的函数中,不存在任何一个“非零”的函数 $g(T)$,其期望值对于所有可能的参数 $\theta$ 都恰好是零。这个统计量 $T$ 的概率分布族 $\{ P_\theta^T \}$ 足够“丰富”,以至于可以排除所有这种非平凡的、期望为零的函数。
如果一个统计量不是完备的,就意味着存在某个非零函数 $g$,使得 $E_\theta[g(T)] = 0$ 对所有 $\theta$ 成立。这表明 $T$ 中含有某些与参数 $\theta$ 无关的“噪音”或“结构”,可以被 $g$ 函数利用来构造一个零的无偏估计。
## 完备性的作用与重要性
完备性的主要威力在于它能保证最优估计量的唯一性。
想象一下我们已经找到了一个未知参数 $\tau(\theta)$ 的无偏估计量 $W$。如果我们能通过{{{Rao-Blackwell定理}}}将其改进(即条件化于一个充分统计量 $T$),得到一个新的估计量 $W' = E[W|T]$。这个新的估计量 $W'$ 仍然是无偏的,并且方差更小(或相等)。
但问题是,我们可能会找到多个不同的无偏估计量,通过Rao-Blackwell化之后,会不会得到多个不同的、方差同样小的“最优”估计量呢?
完备性解决了这个问题。如果充分统计量 $T$ 同时是完备的:
假设有两个不同的无偏估计量 $W_1$ 和 $W_2$,它们都是 $T$ 的函数,并且都是 $\tau(\theta)$ 的无偏估计。 即 $E_\theta[W_1(T)] = \tau(\theta)$ 和 $E_\theta[W_2(T)] = \tau(\theta)$ 对所有 $\theta$ 成立。 令 $g(T) = W_1(T) - W_2(T)$。那么: $$ E_\theta[g(T)] = E_\theta[W_1(T)] - E_\theta[W_2(T)] = \tau(\theta) - \tau(\theta) = 0 $$ 由于 $T$ 是完备的,根据定义,这必然意味着 $P_\theta(g(T) = 0) = 1$。 也就是说,$P_\theta(W_1(T) - W_2(T) = 0) = 1$,即 $W_1(T)$ 和 $W_2(T)$ 以概率1相等。
这证明了:基于一个完备充分统计量的无偏估计量是唯一的。这正是{{{Lehmann-Scheffé定理}}}的核心思想,它确立了该估计量就是独一无二的{{{UMVUE}}}。
## 示例分析
### 示例 1: {{{二项分布}}} (Binomial Distribution)
假设 $X_1, \dots, X_n$ 是来自{{{伯努利分布}}} $Bernoulli(p)$ 的独立同分布样本,其中 $p \in (0, 1)$ 是未知参数。
我们知道统计量 $T = \sum_{i=1}^n X_i$ 是参数 $p$ 的一个{{{充分统计量}}},其自身服从{{{二项分布}}} $B(n, p)$。现在我们来证明 $T$ 是完备的。
根据定义,假设存在一个函数 $g$,使得对所有 $p \in (0, 1)$,都有 $E_p[g(T)] = 0$。 由于 $T$ 是一个离散随机变量,其取值范围是 $\{0, 1, \dots, n\}$,所以期望可以写成: $$ E_p[g(T)] = \sum_{k=0}^n g(k) P(T=k) = \sum_{k=0}^n g(k) \binom{n}{k} p^k (1-p)^{n-k} = 0 $$ 为了简化这个表达式,我们可以两边同除以 $(1-p)^n$(因为 $p \in (0,1)$, 所以 $1-p \neq 0$): $$ \sum_{k=0}^n g(k) \binom{n}{k} \left(\frac{p}{1-p}\right)^k = 0 $$ 令 $y = \frac{p}{1-p}$。当 $p$ 在 $(0, 1)$ 区间内变化时,$y$ 会在 $(0, \infty)$ 区间内变化。上式变为: $$ \sum_{k=0}^n \left[g(k) \binom{n}{k}\right] y^k = 0 $$ 这是一个关于变量 $y$ 的 $n$ 次多项式。一个非零多项式最多有有限个根。但这个等式对于 $(0, \infty)$ 区间内的所有 $y$ 都成立,这说明它有无穷多个根。唯一的可能性是,这个多项式的所有系数都为零。 $$ g(k) \binom{n}{k} = 0, \quad \text{for } k = 0, 1, \dots, n $$ 由于组合数 $\binom{n}{k}$ 对于所有 $k \in \{0, 1, \dots, n\}$ 都是正数,因此必然有: $$ g(k) = 0, \quad \text{for } k = 0, 1, \dots, n $$ 这意味着函数 $g$ 在 $T$ 的所有可能取值上都为零。因此,$P_p(g(T)=0) = 1$ 对所有 $p$ 都成立。
根据定义,$T = \sum X_i$ 是一个完备统计量。
由于 $T$ 既是充分的又是完备的,根据{{{Lehmann-Scheffé定理}}},我们可以用它来寻找参数 $p$ 的{{{UMVUE}}}。我们知道样本均值 $\bar{X} = \frac{1}{n}\sum X_i = \frac{T}{n}$ 是 $p$ 的一个无偏估计量。由于 $\bar{X}$ 是完备充分统计量 $T$ 的函数,因此 $\bar{X}$ 就是 $p$ 的UMVUE。
### 示例 2: 一个非完备统计量的例子
设 $X$ 是来自{{{均匀分布}}} $U(\theta, \theta+1)$ 的单个观测值,其中 $\theta \in (-\infty, \infty)$ 是未知参数。
统计量 $T(X) = X$ 是一个{{{充分统计量}}}。我们来检验其完备性。我们需要检查是否存在一个非零函数 $g(x)$,使得 $E_\theta[g(X)] = 0$ 对所有实数 $\theta$ 成立。 $$ E_\theta[g(X)] = \int_{\theta}^{\theta+1} g(x) \cdot 1 \, dx = 0 $$ 让我们尝试构造一个这样的非零函数。考虑 $g(x) = \sin(2\pi x)$。这个函数显然不是零函数。我们来计算它的期望: $$ E_\theta[\sin(2\pi X)] = \int_{\theta}^{\theta+1} \sin(2\pi x) dx = \left[ -\frac{\cos(2\pi x)}{2\pi} \right]_{\theta}^{\theta+1} $$ $$ = -\frac{1}{2\pi} \left[ \cos(2\pi(\theta+1)) - \cos(2\pi\theta) \right] $$ 由于 $\cos(x)$ 的周期是 $2\pi$,所以 $\cos(2\pi\theta + 2\pi) = \cos(2\pi\theta)$。因此: $$ E_\theta[\sin(2\pi X)] = -\frac{1}{2\pi} \left[ \cos(2\pi\theta) - \cos(2\pi\theta) \right] = 0 $$ 这个等式对所有的 $\theta \in \mathbb{R}$ 都成立。我们成功找到了一个非零函数 $g(x) = \sin(2\pi x)$,使得 $E_\theta[g(X)]=0$。因此,根据定义,统计量 $T(X) = X$ 在这个分布族下不是完备的。
## 完备性与指数族
完备性的检验通常很复杂。幸运的是,对于一个非常广泛和重要的分布类别——{{{指数族}}} (Exponential Family),有一个强大的定理可以帮助我们。
定理:如果一个分布族是 $k$ 参数的{{{指数族}}},其概率密度函数或概率质量函数可以写成: $$ f(x | \boldsymbol{\theta}) = h(x) \exp\left( \sum_{j=1}^k \eta_j(\boldsymbol{\theta}) T_j(x) - A(\boldsymbol{\theta}) \right) $$ 如果其自然参数空间 $\mathcal{N} = \{ \boldsymbol{\eta} = (\eta_1(\boldsymbol{\theta}), \dots, \eta_k(\boldsymbol{\theta})) \}$ 包含一个 $k$ 维的开集,那么由 $k$ 个统计量组成的向量 $\mathbf{T}(X) = (T_1(X), \dots, T_k(X))$ 是一个完备充分统计量。
这个定理极为有用,因为大多数常见的分布,如正态分布、伽马分布、贝塔分布、二项分布、泊松分布等,都属于指数族。这为我们提供了一个识别完备充分统计量的系统性方法,从而简化了寻找{{{UMVUE}}}的过程。
## 总结
完备统计量是数理统计中一个高级但至关重要的概念。它描述了一种“信息无冗余”的特性,即统计量中不存在任何可以构造出零的无偏估计的非零函数。虽然其定义抽象,但其在实践中的核心价值是与充分性结合,通过Lehmann-Scheffé定理来保证一致最小方差无偏估计量(UMVUE)的唯一性。对于属于指数族的分布,寻找完备充分统计量有现成的理论支持,这使得完备性的概念成为现代统计推断理论中一个强大而实用的工具。