完备统计量 (Complete Statistic)
完备统计量是数理统计中一个深刻且核心的概念。它由理论统计学家在20世纪中叶发展起来,主要用于解决最优估计量的唯一性问题。直观上,一个统计量 T(X) 是完备的,意味着由 T 导出的分布族足够"丰富",以至于不存在任何非平凡的函数 g(T),其期望值能在整个参数空间上恒为零。换句话说,完备性确保了任何基于该统计量的无偏估计量都是唯一的。
完备性与充分统计量、Lehmann-Scheffé定理一起构成了寻找UMVUE(一致最小方差无偏估计量)的理论基石。
正式定义
设随机样本 X=(X1,…,Xn) 来自分布族 P={Pθ:θ∈Θ},其中 Θ 是参数空间。令 T=T(X) 是一个统计量,其分布依赖于 θ。
完备性定义:统计量 T 对于参数族 {Pθ:θ∈Θ} 是完备的,如果对于任意可测函数 g,都有:
Eθ[g(T)]=0∀θ∈Θ⟹Pθ(g(T)=0)=1∀θ∈Θ.
换言之,不存在非零函数 g(T) 能使得其期望对参数空间中所有 θ 值都"巧合地"为零。这一性质比充分性更为抽象,但其推论极为有力。
有界完备性:如果上述条件仅对所有有界可测函数 g 成立,则称 T 是有界完备的。实际应用中,完备性通常指有界完备性,尤其在涉及指数族分布时。
直觉与解释
完备性可以类比于线性代数中的概念。考虑一族由 θ 索引的概率分布 {fT(t;θ)}。函数 g(T) 的期望为零等价于:
∫g(t)fT(t;θ)dt=0,∀θ∈Θ.
这意味着函数 g(t) 与所有分布密度 fT(t;θ) 都"正交"。如果分布族 {fT(t;θ)} 张成的函数空间是整个 L2 空间(或足够大),那么唯一与所有分布都正交的函数就是零函数。因此,完备性本质上要求由 T 生成的分布族足够"大"。
反例:考虑 X∼Bernoulli(p),定义 T(X)=X。函数 g(T)=T−21 的期望为 Ep[g(T)]=p−21,当 p=21 时为零,但在其他 p 值下不为零。因此 T 在完整参数空间 Θ=(0,1) 上是完备的。但若将参数空间限制为 Θ={1/2},则 T 不再完备,因为 g(T)=T−1/2 的期望在该参数空间上恒为零。
完备性与充分性的关系
完备性和充分性是互补的概念:
- 充分统计量确保我们没有遗漏样本中关于参数的任何信息。给定充分统计量,样本的条件分布不再依赖于参数。
- 完备统计量确保基于该统计量的无偏估计函数的唯一性。
两者结合(完备充分统计量)是构造最优估计量的理想框架。Lehmann-Scheffé定理正是利用了这一组合:完备充分统计量的任意无偏函数就是唯一的UMVUE。
值得注意,完备性并不意味着充分性,反之亦然。例如,样本均值 Xˉ 在正态分布中既是充分的又是完备的;但一个充分统计量可以通过合并信息而失去完备性(即所谓的"过度充分化"问题)。
指数族分布中的完备性
指数族分布在完备性分析中占据特殊地位。考虑单参数指数族:
f(x∣θ)=h(x)exp{η(θ)T(x)−A(θ)}.
定理:若参数空间 Θ 包含一个开区间,且自然参数空间 {η(θ):θ∈Θ} 包含一个开集,则自然充分统计量 T(X) 是完备的。
这一结论极大地简化了实际应用。常见的分布——正态分布、泊松分布、二项分布、Gamma分布——都属于指数族,因此它们的自然充分统计量自动满足完备性。例如:
- X∼N(μ,σ2),σ2 已知时,Xˉ 对 μ 完备。
- X∼Poisson(λ),∑Xi 对 λ 完备。
- X∼Bernoulli(p),∑Xi 对 p 完备。
完备性与Basu定理
完备性的另一个重要应用是Basu定理。该定理指出:如果 T 是一个完备充分统计量,而 V 是一个辅助统计量(其分布不依赖于参数 θ),则 T 与 V 在统计上独立。
Basu定理为判断统计独立性提供了一种优雅的方法。例如,在正态分布 N(μ,1) 中,样本均值 Xˉ 是 μ 的完备充分统计量,而样本方差 S2(当 σ2=1 已知时的标准化版本)是辅助统计量,因此它们独立。这一结论用传统方法推导需要繁琐的协方差矩阵分析。
完备性的验证方法
在实际应用中,验证完备性通常采用以下策略:
- 指数族判定:若分布属于指数族且参数空间包含开集,则自然充分统计量自动完备。
- Laplace变换法:完备性条件 Eθ[g(T)]=0 可视为 g 的某种积分变换为零。利用Laplace变换(或矩母函数)的唯一性,若该变换在开区间上为零,则 g=0 几乎处处成立。
- 矩方法:若 T 的所有矩 Eθ[Tk] 唯一确定分布,则可直接使用完备性定义。具体地,若 Eθ[g(T)]=0 对所有 θ 成立,且 g 可展开为多项式,则 g 的系数必全部为零。
完备性与UMVUE
完备性最直接的应用在于寻找UMVUE。步骤如下:
- 找到充分统计量 T(通过Fisher-Neyman因子分解定理)。
- 验证 T 的完备性(通常借助指数族性质)。
- 找到 T 的任意一个无偏函数 ϕ(T),使得 Eθ[ϕ(T)]=τ(θ)。
- 根据Lehmann-Scheffé定理,ϕ(T) 即为 τ(θ) 的唯一UMVUE。
例如,在 X∼Uniform(0,θ) 中,T=max(X1,…,Xn)=X(n) 是充分的(同时也是完备的)。其UMVUE为 θ^=nn+1X(n)。
小结
完备统计量是连接充分性与最优估计的桥梁。尽管其定义较为抽象,但它在指数族分布中具有良好的操作性,并在UMVUE理论、Basu定理、假设检验等领域发挥着不可替代的作用。掌握完备性的本质,是深入理解现代统计推断理论的关键一步。