卡方分布的定义
卡方分布(Chi-square distribution, χ2 分布)是数理统计中最为核心的概率分布之一,也是三大抽样分布(t分布、F分布、χ2 分布)中最为基础的一个。从构造定义上看,若 Z1,Z2,…,Zk 为 k 个相互独立的标准正态分布随机变量(即 Zi∼N(0,1),i=1,…,k),则它们的平方和所构成的随机变量:
Q=Z12+Z22+⋯+Zk2=i=1∑kZi2
服从自由度为 k 的卡方分布,记作 Q∼χ2(k) 或 Q∼χk2。参数 k 称为自由度(degrees of freedom),它既是求和项中独立标准正态随机变量的个数,也完全决定了卡方分布的形状特征——包括其偏度、峰度以及尾部厚度。
构造性定义的深层含义
上述构造性定义不仅是形式上的,更揭示了卡方分布在统计推断中的根本地位:任何涉及方差估计或残差分析的统计量,最终都归结为对若干个"标准化离差平方"的求和。具体而言,若 X∼N(μ,σ2),则将 X 标准化为 Z=(X−μ)/σ∼N(0,1) 后,其平方 (X−μ)2/σ2 即服从 χ2(1)。这一事实直接导致:当从正态总体中抽样时,样本方差经过适当缩放后的分布恰好是卡方分布——这是样本方差的区间估计以及单样本方差检验的理论基石。
该构造还隐含了一个可加性:若 Q1∼χ2(k1) 与 Q2∼χ2(k2) 相互独立,则 Q1+Q2∼χ2(k1+k2)。这意味着独立的卡方随机变量在求和下保持封闭性,且自由度叠加——这一性质极大地简化了多组独立方差估计的合并操作。
概率密度函数
对于自由度 k>0,χ2(k) 的概率密度函数在 x>0 时为:
f(x;k)=2k/2Γ(k/2)1⋅xk/2−1⋅e−x/2
其中 Γ(⋅) 为伽马函数(Gamma function):当 k 为整数时,Γ(k/2)=(k/2−1)!,更一般地 Γ(α)=∫0∞tα−1e−tdt。当 x≤0 时,f(x;k)=0——卡方分布的支持集严格限制在正实数轴上。从函数形式出发,卡方分布是伽马分布(Gamma distribution)的一个特例:若将 Gamma 分布参数化为 Gamma(α=k/2,β=1/2),则两者完全等价。这一联系使得卡方分布的许多矩性质可以直接从 Gamma 分布的性质导出。
密度函数的形状随自由度 k 的变化而呈现显著差异:
- k=1:密度函数在 x=0 处趋于无穷大(无上界),且随着 x 增大单调递减——这意味着单个标准正态随机变量的平方更可能取接近零的小值,而大值虽可能但概率衰减较快。
- k=2:密度函数简化为 f(x;2)=21e−x/2,即参数 λ=1/2 的指数分布,在 x=0 处取有限最大值,之后单调递减。
- k≥3:密度函数在 x=k−2 处取得唯一众数(mode),曲线呈正偏态(右偏)单峰形态——随着自由度继续增加,曲线逐渐趋于对称。
- k→∞:由中心极限定理,χ2(k) 趋近于正态分布 N(k,2k)——这一渐近性质在大样本推断中被广泛使用。
数字特征与矩性质
卡方分布的矩具有简洁的解析形式。设 Q∼χ2(k),则:
E[Q]=k,Var(Q)=2k
均值等于自由度,方差为自由度的两倍——这直观地反映了:独立标准正态平方项越多,总和越大且波动也越大。更高阶的矩为:偏度 γ1=8/k(始终为正,即分布总是右偏),峰度(超额峰度)γ2=12/k。随着 k 的增大,偏度和超额峰度均趋于零,分布逐步逼近正态分布。此外,矩母函数(MGF)为:
M(t)=E[etQ]=(1−2t)−k/2,t<21
当 t≥1/2 时矩母函数不存在——这一界限条件在推导卡方随机变量的尾概率不等式时至关重要。
与其他分布的关系
卡方分布处于正态抽样理论的核心枢纽位置,几乎所有常用的检验统计量都与它有直接或间接的联系:
- t分布:若 Z∼N(0,1) 与 Q∼χ2(k) 相互独立,则随机变量 T=Z/Q/k 服从自由度为 k 的t分布(Student's t)。这正是单样本均值检验和回归系数显著性检验中 t 统计量的构造原理。
- F分布:若 Q1∼χ2(k1) 与 Q2∼χ2(k2) 独立,则 F=(Q1/k1)/(Q2/k2) 服从自由度为 (k1,k2) 的F分布。方差分析(ANOVA)、回归模型的F检验以及两样本方差比的比较均基于此关系。
- 正态总体样本方差:若 X1,X2,…,Xn∼iidN(μ,σ2),样本方差 S2=n−11∑i=1n(Xi−Xˉ)2,则 (n−1)S2/σ2∼χ2(n−1)。这里自由度减一的原因在于用样本均值 Xˉ 替代了总体均值 μ,从而消耗了一个自由度——"自由度"一词的本源即来自这种线性约束导致的独立平方项减少。
- 多项分布与似然比检验:在分类数据分析中,皮尔逊卡方统计量 ∑(Oi−Ei)2/Ei 在大样本下近似服从卡方分布,这构成了拟合优度检验与独立性检验的数学基础。Wilks定理则保证:嵌套模型的似然比检验统计量 −2logΛ 在大样本下同样趋于卡方分布。
分位数与统计表
由于卡方分布的累积分布函数没有初等闭式解,实际应用中依赖数值积分或查表获得分位数(又称临界值)。记 χα2(k) 为满足 P(Q>χα2(k))=α 的上侧 α 分位数。例如,常用的上侧 0.05 分位数:χ0.052(1)≈3.841(单参数Wald检验的临界值),χ0.052(2)≈5.991。这些分位数值是构建置信区间和进行假设检验的决策基准。在现代统计软件中,分位数计算已完全自动化,但理解其原理对于正确解释输出结果(尤其是 p 值的含义)仍然不可或缺。
核心应用场景
卡方分布在统计实践中渗透到了几乎所有的推断领域,以下为其最为关键的三种应用范式:
方差估计与置信区间:从正态总体抽样得到样本容量为 n 的随机样本后,利用枢轴量 (n−1)S2/σ2∼χ2(n−1) 可直接构造总体方差 σ2 的 (1−α) 水平置信区间:
(χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2)
由于卡方分布的非对称性,该区间通常不是关于 S2 对称的——这与基于正态或 t 分布的均值置信区间形成显著对比,也是学习者在过渡到方差推断时最易出错之处。
皮尔逊卡方检验:在列联表分析中,检验两个分类变量是否独立的经典方法即皮尔逊卡方检验。统计量 χ2=∑i=1r∑j=1c(Oij−Eij)2/Eij(其中 Oij 为观测频数,Eij 为独立性假设下的期望频数)在大样本下近似服从自由度为 (r−1)(c−1) 的卡方分布。这一检验广泛应用于生物统计学(基因型与表型的关联分析)、市场研究(消费者属性与购买行为的交叉分析)以及社会科学(教育水平与收入等级的关联检验)。
模型拟合与偏差分析:在广义线性模型和结构方程模型中,卡方统计量是衡量模型整体拟合优度的核心指标。两个嵌套模型之间的偏差(deviance)之差近似服从卡方分布,其自由度等于两模型参数个数的差值,从而为模型选择提供正式的假设检验框架。
非中心卡方分布
上述定义假设构成平方和的各正态随机变量均值为零(即标准正态)。若放松这一条件,考虑 Zi∼N(μi,1) 且各 Zi 仍相互独立,则平方和 ∑Zi2 服从非中心卡方分布,记作 χ2(k,λ),其中非中心参数 λ=∑i=1kμi2。当 λ=0 时退化为中心卡方分布 χ2(k)。非中心卡方分布是统计检验功效(power)分析的核心工具:在备择假设为真时,许多检验统计量(如卡方检验中的皮尔逊统计量、线性模型中的 F 统计量的分子部分)服从非中心卡方分布,其非中心参数的大小直接决定了检验区分原假设与备择假设的能力。