ARTICLE

Complete Statistic

完备统计量 (Complete Statistic) 完备统计量是数理统计中一个深刻且核心的概念。它由理论统计学家在20世纪中叶发展起来,主要用于解决最优估计量的唯一性问题。直观上,一个统计量 T(X) 是完备的,意味着由 T 导出的分布族足够"丰富",以至于不存在任何非平凡的函数 g(T) ,其期望值能在整个参数空间上恒为零。换句话说,完备性确保了任何基于

浏览 0 更新 2025-10-26

完备统计量 (Complete Statistic)

完备统计量是数理统计中一个深刻且核心的概念。它由理论统计学家在20世纪中叶发展起来,主要用于解决最优估计量的唯一性问题。直观上,一个统计量 T(X) T(X) 是完备的,意味着由 T T 导出的分布族足够"丰富",以至于不存在任何非平凡的函数 g(T) g(T) ,其期望值能在整个参数空间上恒为零。换句话说,完备性确保了任何基于该统计量的无偏估计量都是唯一的。

完备性与充分统计量Lehmann-Scheffé定理一起构成了寻找UMVUE(一致最小方差无偏估计量)的理论基石。

正式定义

设随机样本 X=(X1,,Xn) X = (X_1, \dots, X_n) 来自分布族 P={Pθ:θΘ} \mathcal{P} = \{P_\theta : \theta \in \Theta\} ,其中 Θ \Theta 是参数空间。令 T=T(X) T = T(X) 是一个统计量,其分布依赖于 θ \theta

完备性定义:统计量 T T 对于参数族 {Pθ:θΘ} \{P_\theta : \theta \in \Theta\} 是完备的,如果对于任意可测函数 g g ,都有:

Eθ[g(T)]=0θΘPθ(g(T)=0)=1θΘ.E_\theta[g(T)] = 0 \quad \forall \theta \in \Theta \quad \Longrightarrow \quad P_\theta(g(T) = 0) = 1 \quad \forall \theta \in \Theta.

换言之,不存在非零函数 g(T) g(T) 能使得其期望对参数空间中所有 θ \theta 值都"巧合地"为零。这一性质比充分性更为抽象,但其推论极为有力。

有界完备性:如果上述条件仅对所有有界可测函数 g g 成立,则称 T T 是有界完备的。实际应用中,完备性通常指有界完备性,尤其在涉及指数族分布时。

直觉与解释

完备性可以类比于线性代数中的概念。考虑一族由 θ \theta 索引的概率分布 {fT(t;θ)} \{f_T(t; \theta)\} 。函数 g(T) g(T) 的期望为零等价于:

g(t)fT(t;θ)dt=0,θΘ.\int g(t) f_T(t; \theta) \, dt = 0, \quad \forall \theta \in \Theta.

这意味着函数 g(t) g(t) 与所有分布密度 fT(t;θ) f_T(t; \theta) 都"正交"。如果分布族 {fT(t;θ)} \{f_T(t; \theta)\} 张成的函数空间是整个 L2 L^2 空间(或足够大),那么唯一与所有分布都正交的函数就是零函数。因此,完备性本质上要求由 T T 生成的分布族足够"大"。

反例:考虑 XBernoulli(p) X \sim \text{Bernoulli}(p) ,定义 T(X)=X T(X) = X 。函数 g(T)=T12 g(T) = T - \frac{1}{2} 的期望为 Ep[g(T)]=p12 E_p[g(T)] = p - \frac{1}{2} ,当 p=12 p = \frac{1}{2} 时为零,但在其他 p p 值下不为零。因此 T T 在完整参数空间 Θ=(0,1) \Theta = (0,1) 上是完备的。但若将参数空间限制为 Θ={1/2} \Theta = \{1/2\} ,则 T T 不再完备,因为 g(T)=T1/2 g(T)=T-1/2 的期望在该参数空间上恒为零。

完备性与充分性的关系

完备性和充分性是互补的概念:

  • 充分统计量确保我们没有遗漏样本中关于参数的任何信息。给定充分统计量,样本的条件分布不再依赖于参数。
  • 完备统计量确保基于该统计量的无偏估计函数的唯一性。

两者结合(完备充分统计量)是构造最优估计量的理想框架。Lehmann-Scheffé定理正是利用了这一组合:完备充分统计量的任意无偏函数就是唯一的UMVUE。

值得注意,完备性并不意味着充分性,反之亦然。例如,样本均值 Xˉ \bar{X} 在正态分布中既是充分的又是完备的;但一个充分统计量可以通过合并信息而失去完备性(即所谓的"过度充分化"问题)。

指数族分布中的完备性

指数族分布在完备性分析中占据特殊地位。考虑单参数指数族:

f(xθ)=h(x)exp{η(θ)T(x)A(θ)}.f(x|\theta) = h(x) \exp\{\eta(\theta) T(x) - A(\theta)\}.

定理:若参数空间 Θ \Theta 包含一个开区间,且自然参数空间 {η(θ):θΘ} \{\eta(\theta): \theta \in \Theta\} 包含一个开集,则自然充分统计量 T(X) T(X) 是完备的。

这一结论极大地简化了实际应用。常见的分布——正态分布、泊松分布、二项分布、Gamma分布——都属于指数族,因此它们的自然充分统计量自动满足完备性。例如:

  • XN(μ,σ2) X \sim N(\mu, \sigma^2) σ2 \sigma^2 已知时,Xˉ \bar{X} μ \mu 完备。
  • XPoisson(λ) X \sim \text{Poisson}(\lambda) Xi \sum X_i λ \lambda 完备。
  • XBernoulli(p) X \sim \text{Bernoulli}(p) Xi \sum X_i p p 完备。

完备性与Basu定理

完备性的另一个重要应用是Basu定理。该定理指出:如果 T T 是一个完备充分统计量,而 V V 是一个辅助统计量(其分布不依赖于参数 θ \theta ),则 T T V V 在统计上独立。

Basu定理为判断统计独立性提供了一种优雅的方法。例如,在正态分布 N(μ,1) N(\mu, 1) 中,样本均值 Xˉ \bar{X} μ \mu 的完备充分统计量,而样本方差 S2 S^2 (当 σ2=1 \sigma^2=1 已知时的标准化版本)是辅助统计量,因此它们独立。这一结论用传统方法推导需要繁琐的协方差矩阵分析。

完备性的验证方法

在实际应用中,验证完备性通常采用以下策略:

  1. 指数族判定:若分布属于指数族且参数空间包含开集,则自然充分统计量自动完备。
  2. Laplace变换法:完备性条件 Eθ[g(T)]=0 E_\theta[g(T)]=0 可视为 g g 的某种积分变换为零。利用Laplace变换(或矩母函数)的唯一性,若该变换在开区间上为零,则 g=0 g=0 几乎处处成立。
  3. 矩方法:T T 的所有矩 Eθ[Tk] E_\theta[T^k] 唯一确定分布,则可直接使用完备性定义。具体地,若 Eθ[g(T)]=0 E_\theta[g(T)]=0 对所有 θ \theta 成立,且 g g 可展开为多项式,则 g g 的系数必全部为零。

完备性与UMVUE

完备性最直接的应用在于寻找UMVUE。步骤如下:

  • 找到充分统计量 T T (通过Fisher-Neyman因子分解定理)。
  • 验证 T T 的完备性(通常借助指数族性质)。
  • 找到 T T 的任意一个无偏函数 ϕ(T) \phi(T) ,使得 Eθ[ϕ(T)]=τ(θ) E_\theta[\phi(T)] = \tau(\theta)
  • 根据Lehmann-Scheffé定理,ϕ(T) \phi(T) 即为 τ(θ) \tau(\theta) 的唯一UMVUE。

例如,在 XUniform(0,θ) X \sim \text{Uniform}(0, \theta) 中,T=max(X1,,Xn)=X(n) T = \max(X_1, \dots, X_n) = X_{(n)} 是充分的(同时也是完备的)。其UMVUE为 θ^=n+1nX(n) \hat{\theta} = \frac{n+1}{n} X_{(n)}

小结

完备统计量是连接充分性与最优估计的桥梁。尽管其定义较为抽象,但它在指数族分布中具有良好的操作性,并在UMVUE理论、Basu定理、假设检验等领域发挥着不可替代的作用。掌握完备性的本质,是深入理解现代统计推断理论的关键一步。