ARTICLE

独立随机变量的平方和

定义 独立随机变量的平方和(Sum of Squares of Independent Random Variables)是指对一组相互独立的随机变量分别取平方后求和所得的新的随机变量。设随机变量 X_1, X_2, , X_n 相互独立,则它们的平方和定义为 Q = _i=1^n X_i^2。统计量 Q 的分布性质完全由各 X_i 的分布决定,且由于平方运

浏览 0 更新 2025-10-26

定义

独立随机变量的平方和(Sum of Squares of Independent Random Variables)是指对一组相互独立的随机变量分别取平方后求和所得的新的随机变量。设随机变量 X1,X2,,XnX_1, X_2, \ldots, X_n 相互独立,则它们的平方和定义为 Q=i=1nXi2Q = \sum_{i=1}^{n} X_i^2。统计量 QQ 的分布性质完全由各 XiX_i 的分布决定,且由于平方运算消去了正负号,该统计量在度量偏离与波动方面具有特殊的重要性。在数理统计中,独立随机变量的平方和是构造方差分析、回归诊断和假设检验等核心方法的基石,其理论基础深刻影响了现代统计推断的范式。理解独立随机变量平方和的分布规律,对于正确运用从简单均值比较到复杂多元回归的各类统计方法至关重要,也是连接概率论与统计实践的关键桥梁之一。

卡方分布的核心地位

当每个 XiX_i 独立服从标准正态分布 N(0,1)N(0,1) 时,平方和 Q=i=1nXi2Q = \sum_{i=1}^{n} X_i^2 服从自由度为 nn 的卡方分布,记作 χn2\chi^2_n。卡方分布是独立正态随机变量平方和的最基本也是最重要的分布。其概率密度函数为 f(x)=12n/2Γ(n/2)xn/21ex/2f(x) = \frac{1}{2^{n/2}\Gamma(n/2)} x^{n/2 - 1} e^{-x/2},定义在 x>0x > 0 上,其中 Γ()\Gamma(\cdot) 为伽马函数。卡方分布的均值等于自由度 nn,方差等于 2n2n,且随着自由度的增大,其分布逐渐趋近于正态分布。利用卡方分布,统计学家可以构造关于总体方差的置信区间和假设检验,例如在单一正态总体中,统计量 (n1)S2σ2χn12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1},其中 S2S^2 为样本方差。此外,卡方分布还是拟合优度检验和列联表独立性检验的核心依据,这些检验均建立在观测频数与期望频数之差的平方和近似服从卡方分布这一基本事实之上。卡方分布的可加性同样值得关注:若 Q1χm2Q_1 \sim \chi^2_mQ2χn2Q_2 \sim \chi^2_n 相互独立,则 Q1+Q2χm+n2Q_1 + Q_2 \sim \chi^2_{m+n},这一性质使卡方分布成为构造方差分析中平方和分解的基础工具。

非中心卡方分布

XiX_i 独立服从均值为 μi\mu_i、方差为 11 的正态分布,即 XiN(μi,1)X_i \sim N(\mu_i, 1),则平方和 Q=i=1nXi2Q = \sum_{i=1}^{n} X_i^2 服从非中心卡方分布,记作 χn2(δ)\chi^2_n(\delta),其中非中心参数 δ=i=1nμi2\delta = \sum_{i=1}^{n} \mu_i^2。非中心卡方分布在功效分析中具有关键作用,因为它刻画了在备择假设成立时检验统计量的分布。例如,在单因素方差分析中,当各组均值存在差异时,组间平方和便服从非中心卡方分布,其非中心参数反映了效应量的大小。非中心卡方分布的均值等于 n+δn + \delta,方差等于 2n+4δ2n + 4\delta,均大于对应中心卡方分布的均值与方差,说明非中心性既使分布整体向右平移,又增大了其离散程度。

非正态情形的平方和

当各 XiX_i 并非正态分布时,独立随机变量的平方和通常不再服从卡方分布,但仍可通过中心极限定理或特征函数方法研究其渐近行为。若各 XiX_i 独立同分布,且具有有限方差,则根据林德伯格—莱维中心极限定理,标准化后的平方和 QnE[X12]nVar(X12)\frac{Q - nE[X_1^2]}{\sqrt{n \cdot \text{Var}(X_1^2)}}nn 较大时近似服从标准正态分布。如果 XiX_i 服从伯努利分布 B(1,p)B(1,p),则 Xi2=XiX_i^2 = X_i,此时平方和退化为二项分布,用于比例推断。如果 XiX_i 服从指数分布,其平方的分布与伽马分布相关。更一般地,若各 XiX_i 独立且各自服从不同的分布,平方和 QQ 的分布可通过卷积或特征函数方法来求解,但在多数情况下没有封闭的解析表达式,需借助数值方法或蒙特卡洛模拟来逼近。对于均值为零且方差有限的独立同分布随机变量,平方和经适当标准化后仍收敛于正态分布,但收敛速度取决于各 Xi2X_i^2 分布的峰度与偏度。当 XiX_i 服从厚尾分布如柯西分布时,二阶矩不存在,平方和的行为需借助稳定分布理论来刻画,此时其渐近分布不再是正态分布而是 α\alpha 稳定分布,适用场景涉及极端事件建模和金融风险管理。

科克伦定理与二次型分解

独立随机变量的平方和在更一般的框架下可表述为二次型 Q=XTAXQ = \mathbf{X}^T A \mathbf{X},其中 X\mathbf{X} 为独立正态随机向量,AA 为对称矩阵。科克伦定理(Cochran's Theorem)精确刻画了此类二次型分解为多个独立卡方分布之和的条件。该定理指出:若 XN(0,I)\mathbf{X} \sim N(\mathbf{0}, I)A=A1+A2++AkA = A_1 + A_2 + \cdots + A_k,其中各 AiA_i 为对称幂等矩阵,则诸二次型 XTAiX\mathbf{X}^T A_i \mathbf{X} 相互独立且分别服从自由度为 rank(Ai)\text{rank}(A_i) 的卡方分布,当且仅当这些秩之和等于总秩。科克伦定理是方差分析的理论核心:它将总平方和 SSTSST 分解为组间平方和 SSBSSB 和组内平方和 SSWSSW,且保证二者在正态假定下相互独立,从而构造出 FF 统计量用于均值差异的显著性检验。在回归分析中,科克伦定理同样支撑着总平方和向回归平方和与残差平方和的正交分解,使 FF 检验得以检验模型整体的显著性。

应用与拓展

独立随机变量的平方和在统计学的各个分支中有着广泛且深刻的应用。在方差分析中,处理平方和与误差平方和的比值构造了 FF 统计量,用于比较多个总体均值的差异。在回归分析中,回归平方和与总平方和的比值即为决定系数 R2R^2,衡量模型对数据的解释力度。在多元统计分析中,马氏距离 D2=(xμ)TΣ1(xμ)D^2 = (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) 本质上也是标准化后独立分量的平方和,当总体服从多元正态分布时服从卡方分布。在非参数统计中,Kruskal-Wallis检验和Friedman检验的统计量均涉及秩的平方和。在时间序列分析中,残差平方和是估计自回归模型参数和进行模型选择的标准准则。此外,在信号处理领域,接收信号的能量通常表示为多个独立采样点的平方和,其分布特性决定了检测阈值的设定。在机器学习中,平方和损失函数——即最小二乘法的目标函数——直接对应于误差项的平方和,其最小化在大样本下等价于极大似然估计。在金融计量经济学中,波动率模型的残差平方和分析被用于检验资产收益率的异方差性,Engle提出的ARCH模型正是通过自回归条件异方差结构来刻画金融时间序列中波动聚集的现象。随着高维数据和大规模假设检验的兴起,独立随机变量平方和的理论——特别是在相关性和非正态性偏离下的稳健性质——仍然是统计研究的前沿课题之一。高维背景下,传统的卡方近似可能因维度过高而失效,需要借助随机矩阵理论和谱分析方法对平方和统计量进行重新校准,这一方向近年来已在基因组学、神经影像学和计量经济学等领域取得重要进展。