ARTICLE

卡方分布的定义

卡方分布的定义 卡方分布(Chi-square distribution, ^2 分布)是数理统计中最为核心的概率分布之一,也是三大抽样分布(t分布、F分布、 ^2 分布)中最为基础的一个。从构造定义上看,若 Z_1, Z_2, , Z_k 为 k 个相互独立的标准正态分布随机变量(即 Z_i N(0, 1),\; i = 1, , k),则它们的平方和所构

浏览 0 更新 2025-10-26

卡方分布的定义

卡方分布(Chi-square distribution, χ2\chi^2 分布)是数理统计中最为核心的概率分布之一,也是三大抽样分布t分布F分布χ2\chi^2 分布)中最为基础的一个。从构造定义上看,若 Z1,Z2,,ZkZ_1, Z_2, \ldots, Z_kkk 个相互独立的标准正态分布随机变量(即 ZiN(0,1),  i=1,,kZ_i \sim N(0, 1),\; i = 1, \ldots, k),则它们的平方和所构成的随机变量:

Q=Z12+Z22++Zk2=i=1kZi2Q = Z_1^2 + Z_2^2 + \cdots + Z_k^2 = \sum_{i=1}^{k} Z_i^2

服从自由度为 kk 的卡方分布,记作 Qχ2(k)Q \sim \chi^2(k)Qχk2Q \sim \chi^2_k。参数 kk 称为自由度(degrees of freedom),它既是求和项中独立标准正态随机变量的个数,也完全决定了卡方分布的形状特征——包括其偏度、峰度以及尾部厚度。

构造性定义的深层含义

上述构造性定义不仅是形式上的,更揭示了卡方分布在统计推断中的根本地位:任何涉及方差估计残差分析的统计量,最终都归结为对若干个"标准化离差平方"的求和。具体而言,若 XN(μ,σ2)X \sim N(\mu, \sigma^2),则将 XX 标准化为 Z=(Xμ)/σN(0,1)Z = (X - \mu)/\sigma \sim N(0, 1) 后,其平方 (Xμ)2/σ2(X - \mu)^2 / \sigma^2 即服从 χ2(1)\chi^2(1)。这一事实直接导致:当从正态总体中抽样时,样本方差经过适当缩放后的分布恰好是卡方分布——这是样本方差的区间估计以及单样本方差检验的理论基石。

该构造还隐含了一个可加性:若 Q1χ2(k1)Q_1 \sim \chi^2(k_1)Q2χ2(k2)Q_2 \sim \chi^2(k_2) 相互独立,则 Q1+Q2χ2(k1+k2)Q_1 + Q_2 \sim \chi^2(k_1 + k_2)。这意味着独立的卡方随机变量在求和下保持封闭性,且自由度叠加——这一性质极大地简化了多组独立方差估计的合并操作。

概率密度函数

对于自由度 k>0k > 0χ2(k)\chi^2(k) 的概率密度函数在 x>0x > 0 时为:

f(x;k)=12k/2Γ(k/2)xk/21ex/2f(x; k) = \frac{1}{2^{k/2} \, \Gamma(k/2)} \cdot x^{k/2 - 1} \cdot e^{-x/2}

其中 Γ()\Gamma(\cdot)伽马函数(Gamma function):当 kk 为整数时,Γ(k/2)=(k/21)!\Gamma(k/2) = (k/2 - 1)!,更一般地 Γ(α)=0tα1etdt\Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} \, dt。当 x0x \leq 0 时,f(x;k)=0f(x; k) = 0——卡方分布的支持集严格限制在正实数轴上。从函数形式出发,卡方分布是伽马分布(Gamma distribution)的一个特例:若将 Gamma 分布参数化为 Gamma(α=k/2,β=1/2)\text{Gamma}(\alpha = k/2, \beta = 1/2),则两者完全等价。这一联系使得卡方分布的许多矩性质可以直接从 Gamma 分布的性质导出。

密度函数的形状随自由度 kk 的变化而呈现显著差异:

  • k=1k = 1:密度函数在 x=0x = 0 处趋于无穷大(无上界),且随着 xx 增大单调递减——这意味着单个标准正态随机变量的平方更可能取接近零的小值,而大值虽可能但概率衰减较快。
  • k=2k = 2:密度函数简化为 f(x;2)=12ex/2f(x; 2) = \frac{1}{2} e^{-x/2},即参数 λ=1/2\lambda = 1/2指数分布,在 x=0x = 0 处取有限最大值,之后单调递减。
  • k3k \geq 3:密度函数在 x=k2x = k - 2 处取得唯一众数(mode),曲线呈正偏态(右偏)单峰形态——随着自由度继续增加,曲线逐渐趋于对称。
  • kk \to \infty:由中心极限定理χ2(k)\chi^2(k) 趋近于正态分布 N(k,2k)N(k, 2k)——这一渐近性质在大样本推断中被广泛使用。

数字特征与矩性质

卡方分布的矩具有简洁的解析形式。设 Qχ2(k)Q \sim \chi^2(k),则:

E[Q]=k,Var(Q)=2k\mathbb{E}[Q] = k, \qquad \text{Var}(Q) = 2k

均值等于自由度,方差为自由度的两倍——这直观地反映了:独立标准正态平方项越多,总和越大且波动也越大。更高阶的矩为:偏度 γ1=8/k\gamma_1 = \sqrt{8/k}(始终为正,即分布总是右偏),峰度(超额峰度)γ2=12/k\gamma_2 = 12/k。随着 kk 的增大,偏度和超额峰度均趋于零,分布逐步逼近正态分布。此外,矩母函数(MGF)为:

M(t)=E[etQ]=(12t)k/2,t<12M(t) = \mathbb{E}[e^{tQ}] = (1 - 2t)^{-k/2}, \qquad t < \frac{1}{2}

t1/2t \geq 1/2 时矩母函数不存在——这一界限条件在推导卡方随机变量的尾概率不等式时至关重要。

与其他分布的关系

卡方分布处于正态抽样理论的核心枢纽位置,几乎所有常用的检验统计量都与它有直接或间接的联系:

  1. t分布:若 ZN(0,1)Z \sim N(0, 1)Qχ2(k)Q \sim \chi^2(k) 相互独立,则随机变量 T=Z/Q/kT = Z / \sqrt{Q / k} 服从自由度为 kkt分布(Student's tt)。这正是单样本均值检验回归系数显著性检验tt 统计量的构造原理。
  2. F分布:若 Q1χ2(k1)Q_1 \sim \chi^2(k_1)Q2χ2(k2)Q_2 \sim \chi^2(k_2) 独立,则 F=(Q1/k1)/(Q2/k2)F = (Q_1 / k_1) / (Q_2 / k_2) 服从自由度为 (k1,k2)(k_1, k_2)F分布方差分析(ANOVA)、回归模型的F检验以及两样本方差比的比较均基于此关系。
  3. 正态总体样本方差:若 X1,X2,,XniidN(μ,σ2)X_1, X_2, \ldots, X_n \stackrel{\text{iid}}{\sim} N(\mu, \sigma^2),样本方差 S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2,则 (n1)S2/σ2χ2(n1)(n-1)S^2 / \sigma^2 \sim \chi^2(n-1)。这里自由度减一的原因在于用样本均值 Xˉ\bar{X} 替代了总体均值 μ\mu,从而消耗了一个自由度——"自由度"一词的本源即来自这种线性约束导致的独立平方项减少。
  4. 多项分布与似然比检验:在分类数据分析中,皮尔逊卡方统计量 (OiEi)2/Ei\sum (O_i - E_i)^2 / E_i 在大样本下近似服从卡方分布,这构成了拟合优度检验独立性检验的数学基础。Wilks定理则保证:嵌套模型的似然比检验统计量 2logΛ-2\log\Lambda 在大样本下同样趋于卡方分布。

分位数与统计表

由于卡方分布的累积分布函数没有初等闭式解,实际应用中依赖数值积分或查表获得分位数(又称临界值)。记 χα2(k)\chi^2_{\alpha}(k) 为满足 P(Q>χα2(k))=αP(Q > \chi^2_{\alpha}(k)) = \alpha 的上侧 α\alpha 分位数。例如,常用的上侧 0.050.05 分位数:χ0.052(1)3.841\chi^2_{0.05}(1) \approx 3.841(单参数Wald检验的临界值),χ0.052(2)5.991\chi^2_{0.05}(2) \approx 5.991。这些分位数值是构建置信区间和进行假设检验的决策基准。在现代统计软件中,分位数计算已完全自动化,但理解其原理对于正确解释输出结果(尤其是 pp 值的含义)仍然不可或缺。

核心应用场景

卡方分布在统计实践中渗透到了几乎所有的推断领域,以下为其最为关键的三种应用范式:

方差估计与置信区间:从正态总体抽样得到样本容量为 nn 的随机样本后,利用枢轴量 (n1)S2/σ2χ2(n1)(n-1)S^2 / \sigma^2 \sim \chi^2(n-1) 可直接构造总体方差 σ2\sigma^2(1α)(1-\alpha) 水平置信区间:

((n1)S2χα/22(n1),  (n1)S2χ1α/22(n1))\left( \frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \; \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right)

由于卡方分布的非对称性,该区间通常不是关于 S2S^2 对称的——这与基于正态或 tt 分布的均值置信区间形成显著对比,也是学习者在过渡到方差推断时最易出错之处。

皮尔逊卡方检验:在列联表分析中,检验两个分类变量是否独立的经典方法即皮尔逊卡方检验。统计量 χ2=i=1rj=1c(OijEij)2/Eij\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} (O_{ij} - E_{ij})^2 / E_{ij}(其中 OijO_{ij} 为观测频数,EijE_{ij} 为独立性假设下的期望频数)在大样本下近似服从自由度为 (r1)(c1)(r-1)(c-1) 的卡方分布。这一检验广泛应用于生物统计学(基因型与表型的关联分析)、市场研究(消费者属性与购买行为的交叉分析)以及社会科学(教育水平与收入等级的关联检验)。

模型拟合与偏差分析:在广义线性模型结构方程模型中,卡方统计量是衡量模型整体拟合优度的核心指标。两个嵌套模型之间的偏差(deviance)之差近似服从卡方分布,其自由度等于两模型参数个数的差值,从而为模型选择提供正式的假设检验框架。

非中心卡方分布

上述定义假设构成平方和的各正态随机变量均值为零(即标准正态)。若放松这一条件,考虑 ZiN(μi,1)Z_i \sim N(\mu_i, 1) 且各 ZiZ_i 仍相互独立,则平方和 Zi2\sum Z_i^2 服从非中心卡方分布,记作 χ2(k,λ)\chi^2(k, \lambda),其中非中心参数 λ=i=1kμi2\lambda = \sum_{i=1}^k \mu_i^2。当 λ=0\lambda = 0 时退化为中心卡方分布 χ2(k)\chi^2(k)。非中心卡方分布是统计检验功效(power)分析的核心工具:在备择假设为真时,许多检验统计量(如卡方检验中的皮尔逊统计量、线性模型中的 FF 统计量的分子部分)服从非中心卡方分布,其非中心参数的大小直接决定了检验区分原假设与备择假设的能力。