充分统计量 (Sufficient Statistic)
充分统计量 (Sufficient Statistic) 是数理统计学中的核心概念,由统计学家罗纳德·费雪 (Ronald Fisher) 于1920年提出。其基本思想是无损数据压缩:一个统计量如果包含了样本中关于未知参数 θ 的全部信息,则被称为 θ 的充分统计量。一旦获知该统计量的值,原始样本数据对于推断 θ 不再提供任何额外信息。
形式化定义
设 X=(X1,…,Xn) 为来自分布族 {f(x;θ):θ∈Θ} 的样本。统计量 T(X) 是 θ 的充分统计量,当且仅当给定 T(X)=t 时,样本 X 的条件概率分布与 θ 无关:
P(X=x∣T(X)=t;θ) 不依赖于 θ
这一条件概率定义虽含义清晰,但在实践中难以直接验证。费雪-奈曼分解定理 (Fisher-Neyman Factorization Theorem) 提供了更便捷的判别方法:T(X) 是 θ 的充分统计量,当且仅当联合密度(或质量)函数可分解为:
f(x;θ)=g(T(x);θ)⋅h(x)
其中 g 通过 T(x) 依赖于数据且可含 θ,h 仅依赖于数据而与 θ 无关。
例:伯努利分布
设 X1,…,Xn∼i.i.d.Bern(p),联合PMF为:
f(x;p)=p∑xi(1−p)n−∑xi
令 T(X)=∑Xi,则 f(x;p)=g(T(x);p)pT(x)(1−p)n−T(x)⋅h(x)1,故 T(X) 是 p 的充分统计量。
最小充分统计量
一个参数可能存在多个充分统计量(如整个样本本身即是平庸的充分统计量)。最小充分统计量 (Minimal Sufficient Statistic) 实现了最大程度的数据压缩——它能表示为任何其他充分统计量的函数。对于伯努利分布,∑Xi 即为最小充分统计量。
理论意义
充分统计量的重要性体现在以下方面:其一,数据压缩使得大规模样本处理成为可能,而信息无损;其二,Rao-Blackwell定理指出,对任何无偏估计量取关于充分统计量的条件期望,可得到方差更小的改进估计量;其三,Lehmann-Scheffé定理进一步指出,基于完备最小充分统计量的无偏估计量是最小方差无偏估计量 (UMVUE)。这些理论共同构成了经典估计理论的基石。