卡方分布的方差 (Variance of Chi-squared Distribution)
卡方分布的方差 是卡方分布 的二阶中心矩,反映了该分布在均值周围离散程度的基本度量。若 X ∼ χ 2 ( k ) X \sim \chi^2(k) X ∼ χ 2 ( k ) ,其中 k k k 为自由度 ,则卡方分布的方差为:
Var ( X ) = 2 k \operatorname{Var}(X) = 2k Var ( X ) = 2 k
这一简洁结果不仅是卡方分布理论的重要组成,也是构造置信区间 、理解F分布 和t分布 行为以及评估假设检验 功效的关键计算基础。
方差的推导
卡方分布的方差可以从多条路径推得,不同路径揭示了分布的不同侧面。
基于定义的直接推导 :由卡方分布的定义,X = ∑ i = 1 k Z i 2 X = \sum_{i=1}^{k} Z_i^2 X = ∑ i = 1 k Z i 2 ,其中 Z i ∼ N ( 0 , 1 ) Z_i \sim N(0, 1) Z i ∼ N ( 0 , 1 ) 且相互独立。由于各 Z i 2 Z_i^2 Z i 2 独立同分布,有:
Var ( X ) = ∑ i = 1 k Var ( Z i 2 ) = k ⋅ Var ( Z 1 2 ) \operatorname{Var}(X) = \sum_{i=1}^{k} \operatorname{Var}(Z_i^2) = k \cdot \operatorname{Var}(Z_1^2) Var ( X ) = i = 1 ∑ k Var ( Z i 2 ) = k ⋅ Var ( Z 1 2 )
对于标准正态变量,有 E [ Z 1 2 ] = 1 E[Z_1^2] = 1 E [ Z 1 2 ] = 1 ,E [ Z 1 4 ] = 3 E[Z_1^4] = 3 E [ Z 1 4 ] = 3 (标准正态分布的四阶矩为 3)。因此:
Var ( Z 1 2 ) = E [ Z 1 4 ] − ( E [ Z 1 2 ] ) 2 = 3 − 1 = 2 \operatorname{Var}(Z_1^2) = E[Z_1^4] - (E[Z_1^2])^2 = 3 - 1 = 2 Var ( Z 1 2 ) = E [ Z 1 4 ] − ( E [ Z 1 2 ] ) 2 = 3 − 1 = 2
代入即得 Var ( X ) = 2 k \operatorname{Var}(X) = 2k Var ( X ) = 2 k 。这一推导最为直观,直接将卡方分布的方差还原为其构造单元 Z i 2 Z_i^2 Z i 2 的方差之和。
基于 Gamma 分布的推导 :卡方分布是Gamma分布 的特例:χ 2 ( k ) ∼ Γ ( k / 2 , 2 ) \chi^2(k) \sim \Gamma(k/2, 2) χ 2 ( k ) ∼ Γ ( k /2 , 2 ) 。Gamma 分布 Γ ( α , β ) \Gamma(\alpha, \beta) Γ ( α , β ) 的方差为 α β 2 \alpha \beta^2 α β 2 ,代入 α = k / 2 \alpha = k/2 α = k /2 、β = 2 \beta = 2 β = 2 即得 Var ( X ) = ( k / 2 ) ⋅ 4 = 2 k \operatorname{Var}(X) = (k/2) \cdot 4 = 2k Var ( X ) = ( k /2 ) ⋅ 4 = 2 k 。这一推导将卡方分布的方差纳入 Gamma 分布族的统一框架中理解。
基于矩母函数的推导 :卡方分布的矩母函数 (MGF) 为 M ( t ) = ( 1 − 2 t ) − k / 2 M(t) = (1 - 2t)^{-k/2} M ( t ) = ( 1 − 2 t ) − k /2 ,定义域为 t < 1 / 2 t < 1/2 t < 1/2 。一阶导数给出均值 E [ X ] = M ′ ( 0 ) = k E[X] = M'(0) = k E [ X ] = M ′ ( 0 ) = k ;二阶导数给出二阶矩 E [ X 2 ] = M ′ ′ ( 0 ) = k ( k + 2 ) E[X^2] = M''(0) = k(k+2) E [ X 2 ] = M ′′ ( 0 ) = k ( k + 2 ) 。于是:
Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = k ( k + 2 ) − k 2 = 2 k \operatorname{Var}(X) = E[X^2] - (E[X])^2 = k(k+2) - k^2 = 2k Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = k ( k + 2 ) − k 2 = 2 k
基于累积量的推导 :卡方分布的累积量生成函数 为 κ ( t ) = − k 2 log ( 1 − 2 t ) \kappa(t) = -\frac{k}{2}\log(1 - 2t) κ ( t ) = − 2 k log ( 1 − 2 t ) 。二阶累积量 κ 2 \kappa_2 κ 2 即为方差,计算 κ ′ ′ ( 0 ) \kappa''(0) κ ′′ ( 0 ) 可得 κ 2 = 2 k \kappa_2 = 2k κ 2 = 2 k 。这一视角揭示了卡方分布方差与更高阶累积量之间的关系:r r r 阶累积量为 κ r = 2 r − 1 ( r − 1 ) ! ⋅ k \kappa_r = 2^{r-1}(r-1)! \cdot k κ r = 2 r − 1 ( r − 1 )! ⋅ k ,其中方差对应 r = 2 r = 2 r = 2 的情形。
方差的性质与解读
卡方分布的方法 2 k 2k 2 k 与自由度 k k k 成正比,这意味着随着自由度增大,分布的绝对离散程度线性增长。然而,相对离散程度则由变异系数 (Coefficient of Variation) 刻画:
C V = Var ( X ) E [ X ] = 2 k k = 2 k CV = \frac{\sqrt{\operatorname{Var}(X)}}{E[X]} = \frac{\sqrt{2k}}{k} = \sqrt{\frac{2}{k}} C V = E [ X ] Var ( X ) = k 2 k = k 2
变异系数随 k k k 增大以 O ( k − 1 / 2 ) O(k^{-1/2}) O ( k − 1/2 ) 的速度衰减至零,反映了中心极限定理 的作用:当自由度增大时,卡方分布(经标准化后)趋近于正态分布 ,相对变异趋于消失。
方差与均值之比(即方差均值比 ,Dispersion Index)为 Var ( X ) / E [ X ] = 2 k / k = 2 \operatorname{Var}(X)/E[X] = 2k/k = 2 Var ( X ) / E [ X ] = 2 k / k = 2 。这一常数比值在诊断过度离散 (Overdispersion) 时具有参考价值——在泊松分布 等模型中方差均值比偏离 1 是离散程度异常的信号,而卡方分布的该比值恒为 2 是由其平方和构造决定的固有特征。
与样本方差的关系
卡方分布的方差在样本方差 的抽样分布中扮演核心角色。设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X 1 , X 2 , … , X n 是来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N ( μ , σ 2 ) 的独立样本,则样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2 S 2 = n − 1 1 ∑ i = 1 n ( X i − X ˉ ) 2 满足:
( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ 2 ( n − 1 ) S 2 ∼ χ 2 ( n − 1 )
由此可推导出样本方差的方差:
Var ( S 2 ) = Var ( σ 2 n − 1 ⋅ χ 2 ( n − 1 ) ) = σ 4 ( n − 1 ) 2 ⋅ 2 ( n − 1 ) = 2 σ 4 n − 1 \operatorname{Var}(S^2) = \operatorname{Var}\left(\frac{\sigma^2}{n-1} \cdot \chi^2(n-1)\right) = \frac{\sigma^4}{(n-1)^2} \cdot 2(n-1) = \frac{2\sigma^4}{n-1} Var ( S 2 ) = Var ( n − 1 σ 2 ⋅ χ 2 ( n − 1 ) ) = ( n − 1 ) 2 σ 4 ⋅ 2 ( n − 1 ) = n − 1 2 σ 4
这一结果在构造总体方差 σ 2 \sigma^2 σ 2 的置信区间 时至关重要。S 2 S^2 S 2 的方差随样本量 n n n 增大而减小,当 n → ∞ n \to \infty n → ∞ 时 Var ( S 2 ) → 0 \operatorname{Var}(S^2) \to 0 Var ( S 2 ) → 0 ,体现了估计量的一致性 。
在 F 分布与 t 分布中的角色
卡方分布的方差直接决定了 F分布 和 t分布 的高阶矩性质。F 分布定义为两个独立卡方变量除以其自由度后的比值:
F = U 1 / d 1 U 2 / d 2 , U 1 ∼ χ 2 ( d 1 ) , U 2 ∼ χ 2 ( d 2 ) F = \frac{U_1/d_1}{U_2/d_2}, \quad U_1 \sim \chi^2(d_1), \; U_2 \sim \chi^2(d_2) F = U 2 / d 2 U 1 / d 1 , U 1 ∼ χ 2 ( d 1 ) , U 2 ∼ χ 2 ( d 2 )
F 分布的方差存在性要求分母自由度 d 2 > 4 d_2 > 4 d 2 > 4 ,其公式为:
Var ( F ) = 2 d 2 2 ( d 1 + d 2 − 2 ) d 1 ( d 2 − 2 ) 2 ( d 2 − 4 ) \operatorname{Var}(F) = \frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)} Var ( F ) = d 1 ( d 2 − 2 ) 2 ( d 2 − 4 ) 2 d 2 2 ( d 1 + d 2 − 2 )
这一公式中分子分母的每一项都源于卡方分布方差 Var ( U i ) = 2 d i \operatorname{Var}(U_i) = 2d_i Var ( U i ) = 2 d i 及其四阶矩的复杂组合。当分母自由度 d 2 → ∞ d_2 \to \infty d 2 → ∞ 时,d 1 ⋅ F ( d 1 , d 2 ) → d χ 2 ( d 1 ) d_1 \cdot F(d_1, d_2) \xrightarrow{d} \chi^2(d_1) d 1 ⋅ F ( d 1 , d 2 ) d χ 2 ( d 1 ) ,F 分布的方差渐近于卡方分布的方差经缩放后的形式。
类似地,t分布 的峰度与自由度之间的关系也依赖于卡方分布分母的方差结构。
非中心卡方分布的方差
当构造卡方分布的标准正态变量具有非零均值时,得到非中心卡方分布 χ 2 ( k , λ ) \chi^2(k, \lambda) χ 2 ( k , λ ) ,其中 λ = ∑ i = 1 k μ i 2 \lambda = \sum_{i=1}^k \mu_i^2 λ = ∑ i = 1 k μ i 2 为非中心参数 。非中心卡方分布的方差为:
Var ( X ) = 2 k + 4 λ \operatorname{Var}(X) = 2k + 4\lambda Var ( X ) = 2 k + 4 λ
与中心卡方分布相比,非中心参数 λ \lambda λ 对方差贡献了 4 λ 4\lambda 4 λ 的额外项。这一增长源于非零均值下 Z i 2 Z_i^2 Z i 2 的二阶矩变化:当 Z i ∼ N ( μ i , 1 ) Z_i \sim N(\mu_i, 1) Z i ∼ N ( μ i , 1 ) 时,E [ Z i 2 ] = 1 + μ i 2 E[Z_i^2] = 1 + \mu_i^2 E [ Z i 2 ] = 1 + μ i 2 ,E [ Z i 4 ] = 3 + 6 μ i 2 + μ i 4 E[Z_i^4] = 3 + 6\mu_i^2 + \mu_i^4 E [ Z i 4 ] = 3 + 6 μ i 2 + μ i 4 ,计算可得 Var ( Z i 2 ) = 2 + 4 μ i 2 \operatorname{Var}(Z_i^2) = 2 + 4\mu_i^2 Var ( Z i 2 ) = 2 + 4 μ i 2 ,求和即得该结果。非中心卡方分布的方差在检验功效 (Power) 分析中至关重要——随着非中心参数增大,分布右移且离散程度增加,检验的第二类错误 概率相应变化。
在方差分析中的应用
卡方分布的方差是方差分析 (ANOVA) 中平方和 分解和F检验 的理论支柱。ANOVA 中的总平方和 (SST)、组间平方和 (SSB) 和组内平方和 (SSW) 在正态假设下均与卡方分布相关联:
S S B / σ 2 ∼ χ 2 ( k − 1 ) , S S W / σ 2 ∼ χ 2 ( N − k ) SSB/\sigma^2 \sim \chi^2(k-1), \quad SSW/\sigma^2 \sim \chi^2(N-k) SSB / σ 2 ∼ χ 2 ( k − 1 ) , SS W / σ 2 ∼ χ 2 ( N − k )
这些平方和的期望分别为 ( k − 1 ) σ 2 (k-1)\sigma^2 ( k − 1 ) σ 2 和 ( N − k ) σ 2 (N-k)\sigma^2 ( N − k ) σ 2 。其方差分别为 2 ( k − 1 ) σ 4 2(k-1)\sigma^4 2 ( k − 1 ) σ 4 和 2 ( N − k ) σ 4 2(N-k)\sigma^4 2 ( N − k ) σ 4 ,直接源于卡方分布的方差公式。均方 (Mean Square) 的方差则据此可精确计算,为评估 F 统计量的抽样波动提供了量化依据。
此外,在方差分量模型 (Variance Components Model) 中,卡方分布方差公式被用于构造方差分量的置信区间 和进行假设检验 ,是理解随机效应模型中变异来源比例的重要工具。