ARTICLE

Neyman-Fisher因子分解定理

Neyman-Fisher因子分解定理 (Neyman-Fisher Factorization Theorem) Neyman-Fisher因子分解定理(Neyman-Fisher Factorization Theorem),在中文教材中常简称为因子分解定理,是数理统计学中判别充分统计量的核心定理。该定理提供了充分统计量的一个充要条件:样本的联合概率函数

浏览 0 更新 2025-11-24

Neyman-Fisher因子分解定理 (Neyman-Fisher Factorization Theorem)

Neyman-Fisher因子分解定理(Neyman-Fisher Factorization Theorem),在中文教材中常简称为因子分解定理,是数理统计学中判别充分统计量的核心定理。该定理提供了充分统计量的一个充要条件:样本的联合概率函数可以分解为两个因子的乘积,其中一个因子仅通过统计量依赖于参数,另一个因子与参数无关。因子分解定理将充分性这一看似抽象的条件分布概念,转化为对似然函数的代数分解操作,是参数估计与假设检验理论的基础工具。

定理的正式陈述

X=(X1,X2,,Xn)X = (X_1, X_2, \ldots, X_n) 是从具有概率函数 f(x;θ)f(x; \theta) 的总体中抽取的独立同分布样本,其中 θ=(θ1,,θk)\theta = (\theta_1, \ldots, \theta_k) 为参数(可为标量或向量)。统计量 T=T(X1,X2,,Xn)T = T(X_1, X_2, \ldots, X_n) 是参数 θ\theta 的充分统计量的充分必要条件是:存在两个非负函数 g(t,θ)g(t, \theta)h(x1,x2,,xn)h(x_1, x_2, \ldots, x_n),使得对于任意 θ\theta 和任意一组观测值 (x1,x2,,xn)(x_1, x_2, \ldots, x_n),有

f(x1,x2,,xn;θ)=g(T(x1,x2,,xn),θ)h(x1,x2,,xn)f(x_1, x_2, \ldots, x_n; \theta) = g\bigl(T(x_1, x_2, \ldots, x_n), \theta\bigr) \cdot h(x_1, x_2, \ldots, x_n)

其中 g(t,θ)g(t, \theta) 仅通过统计量 TT 的取值 tt 依赖于样本数据,而 h(x1,x2,,xn)h(x_1, x_2, \ldots, x_n) 完全不依赖于参数 θ\theta

该陈述同时适用于离散分布(此时 ff 为概率质量函数)和连续分布(此时 ff 为概率密度函数)。对于连续分布,上述等式在几乎处处的意义下成立。

历史背景与理论地位

因子分解定理的起源可追溯至 R. A. Fisher 在 1922 年发表的开创性论文中提出的充分统计量概念。Fisher 认为,一个好的估计量应"概括了样本中与参数有关的全部信息",由此引出了充分性的直观定义。然而,直接从条件分布出发验证充分性在多数情形下相当繁琐。1935 年,Jerzy Neyman 在 Fisher 工作的基础上,提出了以联合概率函数的因子分解形式作为充分性的充要条件,Fisher 随后也独立给出了等价的表述。该定理因此以 Neyman 和 Fisher 共同命名,标志着数理统计学从直观判断向严谨数学刻画的重要跨跃。

从理论体系看,因子分解定理处于充分统计量理论的核心位置。它不仅是判定充分性的实用工具,更揭示了信息压缩与数据简约的数学本质:充分统计量 TT 将高维样本数据压缩为低维(甚至标量)形式,却未损失任何关于参数 θ\theta 的信息。

定理的直观含义:信息分离

因子分解定理将联合概率函数分解为两个因子的乘积,每个因子承担不同的角色:

  1. 信息因子 g(T(x),θ)g(T(x), \theta):这一部分包含了样本中与参数 θ\theta 相关的全部信息。关键在于,样本数据 xx 只有通过统计量 TT 的取值才能进入 gg——换言之,样本与参数的关联完全由 TT 所中介。
  1. 冗余因子 h(x1,x2,,xn)h(x_1, x_2, \ldots, x_n):这一部分完全与参数 θ\theta 无关,仅反映样本数据内部的纯结构信息。给定 TT 后,hh 所代表的样本变异性不提供关于 θ\theta 的额外推断价值。

这种"信息分离"的视角直观地说明了 TT 为什么是充分的:一旦知道了 TT 的值,样本中所有与 θ\theta 有关的信息都已被捕获在 g(T,θ)g(T, \theta) 中;而 hh 在似然函数中作为一个与 θ\theta 无关的乘法常数,对基于似然的推断(如最大似然估计、似然比检验)不产生影响。

典型应用示例

例1(伯努利分布与命中次数):X1,X2,,Xniidb(1,θ)X_1, X_2, \ldots, X_n \stackrel{\text{iid}}{\sim} b(1, \theta),即每个 XiX_i 取 1 的概率为 θ\theta,取 0 的概率为 1θ1-\theta。联合概率质量函数为

f(x1,,xn;θ)=i=1nθxi(1θ)1xi=θi=1nxi(1θ)ni=1nxif(x_1, \ldots, x_n; \theta) = \prod_{i=1}^{n} \theta^{x_i} (1-\theta)^{1-x_i} = \theta^{\sum_{i=1}^{n} x_i} (1-\theta)^{n-\sum_{i=1}^{n} x_i}

T=i=1nXiT = \sum_{i=1}^{n} X_i 为命中总次数,则可令 g(T,θ)=θT(1θ)nTg(T, \theta) = \theta^{T} (1-\theta)^{n-T}h(x1,,xn)=1h(x_1, \ldots, x_n) = 1。由因子分解定理,TTθ\theta 的充分统计量。

例2(均匀分布与最大次序统计量):X1,,XniidU(0,θ)X_1, \ldots, X_n \stackrel{\text{iid}}{\sim} U(0, \theta)。联合概率密度函数为

f(x1,,xn;θ)=1θn1{x(n)<θ}1{x(1)>0}f(x_1, \ldots, x_n; \theta) = \frac{1}{\theta^n} \, \mathbf{1}_{\{x_{(n)} < \theta\}} \cdot \mathbf{1}_{\{x_{(1)} > 0\}}

其中 x(n)=max(x1,,xn)x_{(n)} = \max(x_1, \ldots, x_n)x(1)=min(x1,,xn)x_{(1)} = \min(x_1, \ldots, x_n)。取 T=X(n)T = X_{(n)},令 g(T,θ)=θn1{T<θ}g(T, \theta) = \theta^{-n} \mathbf{1}_{\{T < \theta\}}h(x)=1{x(1)>0}h(x) = \mathbf{1}_{\{x_{(1)} > 0\}}。由因子分解定理,最大次序统计量 X(n)X_{(n)}θ\theta 的充分统计量。注意此处 h(x)h(x) 非平凡——它截断了样本空间的下界。

例3(正态分布与联合充分统计量):XiiidN(μ,σ2)X_i \stackrel{\text{iid}}{\sim} N(\mu, \sigma^2),参数为 θ=(μ,σ2)\theta = (\mu, \sigma^2)。联合密度为

f(x;μ,σ2)=(2πσ2)n/2exp{12σ2i=1n(xiμ)2}f(x; \mu, \sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 \right\}

利用恒等式 i=1n(xiμ)2=i=1n(xixˉ)2+n(xˉμ)2\sum_{i=1}^{n} (x_i - \mu)^2 = \sum_{i=1}^{n} (x_i - \bar{x})^2 + n(\bar{x} - \mu)^2,可将联合密度改写为

f(x;μ,σ2)=(2πσ2)n/2exp{n(xˉμ)2+i=1n(xixˉ)22σ2}f(x; \mu, \sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{n(\bar{x} - \mu)^2 + \sum_{i=1}^{n} (x_i - \bar{x})^2}{2\sigma^2} \right\}

T=(i=1nXi,i=1nXi2)T = \bigl(\sum_{i=1}^{n} X_i, \sum_{i=1}^{n} X_i^2\bigr),则 gg 仅通过 TT 的两个分量依赖于样本,而 h(x)=1h(x) = 1。由因子分解定理,TT(μ,σ2)(\mu, \sigma^2) 的联合充分统计量。由于 (Xˉ,S2)(\bar{X}, S^2)TT 之间存在一一对应关系,样本均值与样本方差同样构成 (μ,σ2)(\mu, \sigma^2) 的联合充分统计量。

证明概要

必要性(充分统计量 \Rightarrow 因子分解):TT 是充分统计量。定义 g(t,θ)=Pθ(T=t)g(t, \theta) = P_{\theta}(T = t)(离散情形)或 g(t,θ)g(t, \theta)TT 的密度函数(连续情形),并定义 h(x)=Pθ(X=xT=T(x))h(x) = P_{\theta}(X = x \mid T = T(x))(离散情形)或相应的条件密度(连续情形)。由充分性的定义,h(x)h(x) 不依赖于 θ\theta。由条件概率的乘法公式,联合概率函数即为 g(T(x),θ)h(x)g(T(x), \theta) \cdot h(x)

充分性(因子分解 \Rightarrow 充分统计量):设联合概率函数可分解为 f(x;θ)=g(T(x),θ)h(x)f(x; \theta) = g(T(x), \theta) \cdot h(x)。对于任意满足 T(x)=tT(x) = t 的样本点 xx,在给定 T=tT = t 的条件下,样本的条件分布为

Pθ(X=xT=t)=g(t,θ)h(x)y:T(y)=tg(t,θ)h(y)=h(x)y:T(y)=th(y)P_{\theta}(X = x \mid T = t) = \frac{g(t, \theta) \cdot h(x)}{\sum_{y: T(y)=t} g(t, \theta) \cdot h(y)} = \frac{h(x)}{\sum_{y: T(y)=t} h(y)}

该表达式不依赖于参数 θ\theta,因此 TT 是充分统计量。

与其他概念的关系

因子分解定理与似然函数:在因子分解形式中,只要 h(x)0h(x) \neq 0,似然函数 L(θ;x)L(\theta; x)g(T(x),θ)g(T(x), \theta) 成比例——即 L(θ;x)g(T(x),θ)L(\theta; x) \propto g(T(x), \theta)。这意味着基于似然的全部统计推断(最大似然估计、似然比检验、贝叶斯后验等)仅依赖于充分统计量 TT,而不需要原始样本的全部信息。这是充分性原理(Sufficiency Principle)的数学基础。

因子分解定理与指数族:若总体分布属于指数族,即

f(x;θ)=h(x)exp{j=1kηj(θ)Sj(x)A(θ)}f(x; \theta) = h(x) \exp\left\{ \sum_{j=1}^{k} \eta_j(\theta) \cdot S_j(x) - A(\theta) \right\}

则联合密度的因子分解形式直接给出 T=(i=1nS1(Xi),,i=1nSk(Xi))T = \bigl(\sum_{i=1}^{n} S_1(X_i), \ldots, \sum_{i=1}^{n} S_k(X_i)\bigr) 为充分统计量。这是因子分解定理在指数族中的最直接应用,也解释了为什么指数族中的充分统计量具有如此简洁的结构。

注意事项与常见误区

一、分解形式不唯一:对于同一个充分统计量 TTgghh 的选取不是唯一的。例如可将任意正常数从 hh 移至 gg 或反之。判定充分性时,只需证明存在一组 g,hg, h 满足分解条件即可。

二、因子分解定理不直接给出最小充分统计量:因子分解定理判定的是给定 TT 是否充分,而非它是否"最小"(维数最低)。但在多数标准分布族中,由因子分解定理读出的充分统计量恰好也是最小充分的。严格的最小充分性需额外论证。

三、多维参数与向量统计量:θ\theta 为多维参数向量时,TT 通常也需为向量值统计量,其维数至少与 θ\theta 相同才能实现充分性。正态分布的例子——参数为二维、充分统计量也为二维——具有典型性。

四、不要与充分维数缩减混淆:因子分解定理给出的充分统计量并不保证维数缩减——极端地,T=(X1,,Xn)T = (X_1, \ldots, X_n)(即样本本身)永远是平凡的充分统计量。因子分解定理的价值在于帮助我们识别出真正实现了数据压缩的非平凡充分统计量。