ARTICLE

独立的卡方随机变量

独立的卡方随机变量 (Independent Chi-Square Random Variables) 独立的卡方随机变量是指两个或多个卡方随机变量之间满足统计独立性 (概率论)的条件。由于卡方随机变量由标准正态分布变量的平方和构造而来,其独立性判断通常需要追溯至底层正态变量的结构。独立的卡方随机变量在方差分析、线性回归的平方和分解以及似然比检验中扮演着不可

浏览 0 更新 2026-07-14

独立的卡方随机变量 (Independent Chi-Square Random Variables)

独立的卡方随机变量是指两个或多个卡方随机变量之间满足统计独立性 (概率论)的条件。由于卡方随机变量由标准正态分布变量的平方和构造而来,其独立性判断通常需要追溯至底层正态变量的结构。独立的卡方随机变量在方差分析线性回归的平方和分解以及似然比检验中扮演着不可替代的角色——若卡方分量不独立,后续的F检验t检验便失去了理论根基。

独立卡方变量的构造条件

X1χ2(ν1)X_1 \sim \chi^2(\nu_1)X2χ2(ν2)X_2 \sim \chi^2(\nu_2) 为两个卡方随机变量。判断 X1X_1X2X_2 是否独立,不能仅观察二者的边际分布,而必须追溯其底层正态变量的协方差结构。最典型的情形是:若存在两组相互独立的标准正态变量 {Z1,,Zν1}\{Z_1, \ldots, Z_{\nu_1}\}{Zν1+1,,Zν1+ν2}\{Z_{\nu_1+1}, \ldots, Z_{\nu_1+\nu_2}\},使得

X1=i=1ν1Zi2,X2=j=ν1+1ν1+ν2Zj2,X_1 = \sum_{i=1}^{\nu_1} Z_i^2, \quad X_2 = \sum_{j=\nu_1+1}^{\nu_1+\nu_2} Z_j^2,

则由正态变量的独立性可直接推出 X1X_1X2X_2 独立。然而在统计实践中,两个卡方随机变量往往共享某些正态分量(例如样本均值和样本方差都依赖同一组数据),此时独立性不再平凡,需要Cochran定理等深刻结论加以判定。

可加性与独立性的关系

卡方分布的可加性(或称再生性)严格依赖于独立性假设:若 X1χ2(ν1)X_1 \sim \chi^2(\nu_1)X2χ2(ν2)X_2 \sim \chi^2(\nu_2) 相互独立,则

X1+X2χ2(ν1+ν2).X_1 + X_2 \sim \chi^2(\nu_1 + \nu_2).

通过矩母函数可以简洁证明:MX1+X2(t)=MX1(t)MX2(t)=(12t)ν1/2(12t)ν2/2=(12t)(ν1+ν2)/2M_{X_1+X_2}(t) = M_{X_1}(t) \cdot M_{X_2}(t) = (1-2t)^{-\nu_1/2} \cdot (1-2t)^{-\nu_2/2} = (1-2t)^{-(\nu_1+\nu_2)/2},正是 χ2(ν1+ν2)\chi^2(\nu_1+\nu_2) 的矩母函数。这里独立性的作用至关重要——若 X1X_1X2X_2 不独立,则 MX1+X2(t)MX1(t)MX2(t)M_{X_1+X_2}(t) \neq M_{X_1}(t) M_{X_2}(t),和的分布不再具有简洁的卡方形式。因此,可加性本身就是独立卡方随机变量的一个直接推论。

Cochran 定理与二次型的独立性

线性模型中,判定卡方随机变量的独立性最核心的工具是Cochran 定理(Cochran's Theorem)。设 ZNn(0,In)\mathbf{Z} \sim N_n(\mathbf{0}, \mathbf{I}_n)nn 维标准正态随机向量,A1,A2,,Ak\mathbf{A}_1, \mathbf{A}_2, \ldots, \mathbf{A}_kn×nn \times n 对称幂等矩阵(即 Ai2=Ai\mathbf{A}_i^2 = \mathbf{A}_i),满足 i=1kAi=In\sum_{i=1}^k \mathbf{A}_i = \mathbf{I}_n。则:

  1. 每个二次型 ZAiZχ2(rank(Ai))\mathbf{Z}^\top \mathbf{A}_i \mathbf{Z} \sim \chi^2(\operatorname{rank}(\mathbf{A}_i))
  2. 这些二次型相互独立的充要条件是 i=1krank(Ai)=n\sum_{i=1}^k \operatorname{rank}(\mathbf{A}_i) = n

Cochran 定理的精髓在于:它将卡方随机变量的独立性判断转化为对投影矩阵秩的简单加法验证。在普通最小二乘法 (OLS) 中,总平方和 SSTSS_T、回归平方和 SSRSS_R 与残差平方和 SSESS_E 的分解正是这一结构的直接体现——三个平方和对应的幂等矩阵秩之和恰为 nn,从而保证了 SSRSS_RSSESS_E 的独立性,进而使得 F=(SSR/p)/(SSE/(np1))F = (SS_R / p) / (SS_E / (n-p-1)) 在零假设下精确服从F分布

方差分析中的独立卡方分解

在单因素方差分析 (ANOVA)中,组间平方和 SSBSS_B 与组内平方和 SSWSS_W 的独立性是 F 检验有效性的根基。在零假设 H0:μ1==μkH_0: \mu_1 = \cdots = \mu_k 下,总变异可分解为两个独立的卡方分量:

SSBσ2χ2(k1),SSWσ2χ2(Nk),\frac{SS_B}{\sigma^2} \sim \chi^2(k-1), \quad \frac{SS_W}{\sigma^2} \sim \chi^2(N-k),

且二者相互独立。这一独立性源于:SSBSS_B 仅依赖于各组均值(组间变异),SSWSS_W 仅依赖于各组内部离差(组内变异),而正态分布下样本均值与样本方差独立(Basu 定理可给出一般性证明)。若两组卡方分量不独立,则 F=MSB/MSWF = MS_B / MS_W 将不再服从 F 分布,基于 F 分布的 p 值和拒绝域都将失真。

回归分析中的应用

在多元线性回归 Y=Xβ+εY = X\beta + \varepsilon 中,若误差 εN(0,σ2In)\varepsilon \sim N(0, \sigma^2 I_n),则总平方和 YYY^\top Y 可分解为模型平方和与误差平方和。这两个卡方型随机变量(经 σ2\sigma^2 标准化后)相互独立,前提是对应的 Hat 矩阵 H=X(XX)1XH = X(X^\top X)^{-1}X^\topIHI - H 正交:H(IH)=0H(I-H) = 0。这一正交性本质上反映了几何投影的独立性——模型拟合值 Y^\hat{Y} 与残差 ee 在正态假设下独立,因此二者的平方范数作为卡方变量也相互独立。该性质也是调整决定系数 (R2R^2) 和模型选择准则(如Mallows Cp)的推导基础。

不独立情形:非中心与相关性

当底层正态变量的均值非零或协方差矩阵非对角时,导出的卡方型随机变量可能不再独立。具体而言:

  • 非中心卡方:若 ZiN(μi,1)Z_i \sim N(\mu_i, 1) 且相互独立,则 Zi2χ2(ν,λ)\sum Z_i^2 \sim \chi^2(\nu, \lambda) 为非中心卡方,其中 λ=μi2\lambda = \sum \mu_i^2。两个非中心卡方变量即使来源于不重叠的正态分量也可能因非中心参数的关联而失去独立性。
  • 相关卡方:若底层正态变量之间存在协方差 Cov(Zi,Zj)0\operatorname{Cov}(Z_i, Z_j) \neq 0,则 Zi2\sum Z_i^2Zj2\sum Z_j^2 一般不再独立。此时需用Wishart分布或一般二次型的联合分布理论进行分析。

似然比检验中的独立卡方

最大似然估计框架下,似然比检验(Likelihood Ratio Test, LRT)统计量为:

Λ=2log(L(θ^0)L(θ^)),\Lambda = -2 \log \left( \frac{L(\hat{\theta}_0)}{L(\hat{\theta})} \right),

其中 L(θ^0)L(\hat{\theta}_0) 为零假设约束下的最大化似然,L(θ^)L(\hat{\theta}) 为无约束最大化似然。在零假设成立且满足正则条件时,Λ\Lambda 渐近服从卡方分布,自由度为约束个数。当需要对嵌套模型的多个参数子集进行序贯检验时(如在逐步回归中添加或删除变量),各步似然比统计量之间的独立性取决于对应约束矩阵是否正交。若约束彼此嵌套且满足 Cochran 型分解条件,则各步增量卡方变量相互独立,可将总卡方统计量拆分为独立分量之和,从而有效控制族系错误率。反之,若忽视分量间的相关性而简单叠加,将导致检验水平失真。

总结

独立卡方随机变量是经典统计推断框架中承上启下的关键概念:它上承正态分布独立性的代数结构(通过 Cochran 定理得以严格判定),下启 F 分布和 t 分布的构造(二者均由独立卡方变量的比值定义)。在实际数据分析中,每当我们心安理得地使用 ANOVA 的 F 检验或回归系数的 t 检验时,都在隐含地依赖一个未经检验的前提——对应的卡方分量确实是独立的。理解这一概念,有助于在模型假设被违背时及时识别问题并寻求稳健替代方案(如异方差稳健标准误自助法)。