ARTICLE

卡方分布的方差

卡方分布的方差 (Variance of Chi-squared Distribution) 卡方分布的方差是卡方分布的二阶中心矩,反映了该分布在均值周围离散程度的基本度量。若 X ^2(k),其中 k 为自由度,则卡方分布的方差为: 这一简洁结果不仅是卡方分布理论的重要组成,也是构造置信区间、理解F分布和t分布行为以及评估假设检验功效的关键计算基础。 方差

浏览 0 更新 2026-06-19

卡方分布的方差 (Variance of Chi-squared Distribution)

卡方分布的方差卡方分布的二阶中心矩,反映了该分布在均值周围离散程度的基本度量。若 Xχ2(k)X \sim \chi^2(k),其中 kk自由度,则卡方分布的方差为:

Var(X)=2k\operatorname{Var}(X) = 2k

这一简洁结果不仅是卡方分布理论的重要组成,也是构造置信区间、理解F分布t分布行为以及评估假设检验功效的关键计算基础。

方差的推导

卡方分布的方差可以从多条路径推得,不同路径揭示了分布的不同侧面。

基于定义的直接推导:由卡方分布的定义,X=i=1kZi2X = \sum_{i=1}^{k} Z_i^2,其中 ZiN(0,1)Z_i \sim N(0, 1) 且相互独立。由于各 Zi2Z_i^2 独立同分布,有:

Var(X)=i=1kVar(Zi2)=kVar(Z12)\operatorname{Var}(X) = \sum_{i=1}^{k} \operatorname{Var}(Z_i^2) = k \cdot \operatorname{Var}(Z_1^2)

对于标准正态变量,有 E[Z12]=1E[Z_1^2] = 1E[Z14]=3E[Z_1^4] = 3(标准正态分布的四阶矩为 3)。因此:

Var(Z12)=E[Z14](E[Z12])2=31=2\operatorname{Var}(Z_1^2) = E[Z_1^4] - (E[Z_1^2])^2 = 3 - 1 = 2

代入即得 Var(X)=2k\operatorname{Var}(X) = 2k。这一推导最为直观,直接将卡方分布的方差还原为其构造单元 Zi2Z_i^2 的方差之和。

基于 Gamma 分布的推导:卡方分布是Gamma分布的特例:χ2(k)Γ(k/2,2)\chi^2(k) \sim \Gamma(k/2, 2)。Gamma 分布 Γ(α,β)\Gamma(\alpha, \beta) 的方差为 αβ2\alpha \beta^2,代入 α=k/2\alpha = k/2β=2\beta = 2 即得 Var(X)=(k/2)4=2k\operatorname{Var}(X) = (k/2) \cdot 4 = 2k。这一推导将卡方分布的方差纳入 Gamma 分布族的统一框架中理解。

基于矩母函数的推导:卡方分布的矩母函数 (MGF) 为 M(t)=(12t)k/2M(t) = (1 - 2t)^{-k/2},定义域为 t<1/2t < 1/2。一阶导数给出均值 E[X]=M(0)=kE[X] = M'(0) = k;二阶导数给出二阶矩 E[X2]=M(0)=k(k+2)E[X^2] = M''(0) = k(k+2)。于是:

Var(X)=E[X2](E[X])2=k(k+2)k2=2k\operatorname{Var}(X) = E[X^2] - (E[X])^2 = k(k+2) - k^2 = 2k

基于累积量的推导:卡方分布的累积量生成函数κ(t)=k2log(12t)\kappa(t) = -\frac{k}{2}\log(1 - 2t)。二阶累积量 κ2\kappa_2 即为方差,计算 κ(0)\kappa''(0) 可得 κ2=2k\kappa_2 = 2k。这一视角揭示了卡方分布方差与更高阶累积量之间的关系:rr 阶累积量为 κr=2r1(r1)!k\kappa_r = 2^{r-1}(r-1)! \cdot k,其中方差对应 r=2r = 2 的情形。

方差的性质与解读

卡方分布的方法 2k2k 与自由度 kk 成正比,这意味着随着自由度增大,分布的绝对离散程度线性增长。然而,相对离散程度则由变异系数 (Coefficient of Variation) 刻画:

CV=Var(X)E[X]=2kk=2kCV = \frac{\sqrt{\operatorname{Var}(X)}}{E[X]} = \frac{\sqrt{2k}}{k} = \sqrt{\frac{2}{k}}

变异系数随 kk 增大以 O(k1/2)O(k^{-1/2}) 的速度衰减至零,反映了中心极限定理的作用:当自由度增大时,卡方分布(经标准化后)趋近于正态分布,相对变异趋于消失。

方差与均值之比(即方差均值比,Dispersion Index)为 Var(X)/E[X]=2k/k=2\operatorname{Var}(X)/E[X] = 2k/k = 2。这一常数比值在诊断过度离散 (Overdispersion) 时具有参考价值——在泊松分布等模型中方差均值比偏离 1 是离散程度异常的信号,而卡方分布的该比值恒为 2 是由其平方和构造决定的固有特征。

与样本方差的关系

卡方分布的方差在样本方差的抽样分布中扮演核心角色。设 X1,X2,,XnX_1, X_2, \ldots, X_n 是来自正态总体 N(μ,σ2)N(\mu, \sigma^2) 的独立样本,则样本方差 S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2 满足:

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

由此可推导出样本方差的方差:

Var(S2)=Var(σ2n1χ2(n1))=σ4(n1)22(n1)=2σ4n1\operatorname{Var}(S^2) = \operatorname{Var}\left(\frac{\sigma^2}{n-1} \cdot \chi^2(n-1)\right) = \frac{\sigma^4}{(n-1)^2} \cdot 2(n-1) = \frac{2\sigma^4}{n-1}

这一结果在构造总体方差 σ2\sigma^2置信区间时至关重要。S2S^2 的方差随样本量 nn 增大而减小,当 nn \to \inftyVar(S2)0\operatorname{Var}(S^2) \to 0,体现了估计量的一致性

在 F 分布与 t 分布中的角色

卡方分布的方差直接决定了 F分布t分布 的高阶矩性质。F 分布定义为两个独立卡方变量除以其自由度后的比值:

F=U1/d1U2/d2,U1χ2(d1),  U2χ2(d2)F = \frac{U_1/d_1}{U_2/d_2}, \quad U_1 \sim \chi^2(d_1), \; U_2 \sim \chi^2(d_2)

F 分布的方差存在性要求分母自由度 d2>4d_2 > 4,其公式为:

Var(F)=2d22(d1+d22)d1(d22)2(d24)\operatorname{Var}(F) = \frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)}

这一公式中分子分母的每一项都源于卡方分布方差 Var(Ui)=2di\operatorname{Var}(U_i) = 2d_i 及其四阶矩的复杂组合。当分母自由度 d2d_2 \to \infty 时,d1F(d1,d2)dχ2(d1)d_1 \cdot F(d_1, d_2) \xrightarrow{d} \chi^2(d_1),F 分布的方差渐近于卡方分布的方差经缩放后的形式。

类似地,t分布 的峰度与自由度之间的关系也依赖于卡方分布分母的方差结构。

非中心卡方分布的方差

当构造卡方分布的标准正态变量具有非零均值时,得到非中心卡方分布 χ2(k,λ)\chi^2(k, \lambda),其中 λ=i=1kμi2\lambda = \sum_{i=1}^k \mu_i^2非中心参数。非中心卡方分布的方差为:

Var(X)=2k+4λ\operatorname{Var}(X) = 2k + 4\lambda

与中心卡方分布相比,非中心参数 λ\lambda 对方差贡献了 4λ4\lambda 的额外项。这一增长源于非零均值下 Zi2Z_i^2 的二阶矩变化:当 ZiN(μi,1)Z_i \sim N(\mu_i, 1) 时,E[Zi2]=1+μi2E[Z_i^2] = 1 + \mu_i^2E[Zi4]=3+6μi2+μi4E[Z_i^4] = 3 + 6\mu_i^2 + \mu_i^4,计算可得 Var(Zi2)=2+4μi2\operatorname{Var}(Z_i^2) = 2 + 4\mu_i^2,求和即得该结果。非中心卡方分布的方差在检验功效 (Power) 分析中至关重要——随着非中心参数增大,分布右移且离散程度增加,检验的第二类错误概率相应变化。

在方差分析中的应用

卡方分布的方差是方差分析 (ANOVA) 中平方和分解和F检验的理论支柱。ANOVA 中的总平方和 (SST)、组间平方和 (SSB) 和组内平方和 (SSW) 在正态假设下均与卡方分布相关联:

SSB/σ2χ2(k1),SSW/σ2χ2(Nk)SSB/\sigma^2 \sim \chi^2(k-1), \quad SSW/\sigma^2 \sim \chi^2(N-k)

这些平方和的期望分别为 (k1)σ2(k-1)\sigma^2(Nk)σ2(N-k)\sigma^2。其方差分别为 2(k1)σ42(k-1)\sigma^42(Nk)σ42(N-k)\sigma^4,直接源于卡方分布的方差公式。均方 (Mean Square) 的方差则据此可精确计算,为评估 F 统计量的抽样波动提供了量化依据。

此外,在方差分量模型 (Variance Components Model) 中,卡方分布方差公式被用于构造方差分量的置信区间和进行假设检验,是理解随机效应模型中变异来源比例的重要工具。