卡方分布 (Chi-squared Distribution)
卡方分布 (χ2 分布,Chi-squared Distribution) 是概率论与统计学中最重要的连续概率分布之一,在假设检验、置信区间估计和方差分析中占据核心地位。若 Z1,Z2,…,Zk 是 k 个相互独立的标准正态分布随机变量,即每个 Zi∼N(0,1),则它们的平方和服从自由度为 k 的卡方分布:
Q=i=1∑kZi2∼χ2(k)
其中参数 k∈N+ 称为自由度 (Degrees of Freedom),是卡方分布唯一的参数,决定了分布的一切统计特性。卡方分布的定义域为 (0,+∞),即随机变量始终取正值——这是平方和定义的直接结果。
概率密度函数与分布形态
自由度为 k 的卡方分布的概率密度函数 (PDF) 为:
f(x;k)=2k/2Γ(k/2)1xk/2−1e−x/2,x>0
其中 Γ(⋅) 为Gamma函数。当 x≤0 时,f(x;k)=0。该密度函数的形式揭示了一个重要事实:卡方分布本质上是 Gamma分布 的特例。具体而言,χ2(k) 等价于形状参数为 k/2、尺度参数为 2 的 Gamma 分布,即 χ2(k)∼Γ(k/2,2),或等价地,等价于形状参数为 k/2、速率参数为 1/2 的 Gamma 分布。
分布形态随自由度 k 的变化呈现规律性演变。当 k=1 时,PDF 在 x→0+ 处趋于无穷(呈 x−1/2 发散),形态高度右偏且没有定义在 x=0 处的有限密度值。当 k=2 时,PDF 退化为尺度参数为 2 的指数分布,即 f(x;2)=21e−x/2,在 x=0 处密度为 1/2,呈单调递减形态。当 k≥3 时,分布呈现单峰形态,众数出现在 x=k−2 处。随着 k 增大,根据中心极限定理,卡方分布逐渐趋近于正态分布:当 k→∞ 时,χ2(k) 近似服从 N(k,2k)。
矩与统计特征
卡方分布的矩具有简洁的解析形式。设 X∼χ2(k),则:
期望:E[X]=k。这从定义直接可得——每个 Zi2 的期望为 1(因为 E[Zi2]=Var(Zi)+[E(Zi)]2=1+0=1),k 个独立项之和的期望即为 k。
方差:Var(X)=2k。每个 Zi2 的方差为 E[Zi4]−[E(Zi2)]2=3−1=2,独立项求和后方差相加。
偏度 (Skewness):γ1=8/k。偏度始终为正(右偏),但随着自由度增大,偏度以 O(k−1/2) 的速率收敛至零。
峰度 (Kurtosis,超额峰度):γ2=12/k。超额峰度以 O(k−1) 收敛于零,印证了大自由度下趋近正态的趋势。
矩母函数 (MGF):M(t)=E[etX]=(1−2t)−k/2,定义域为 t<1/2。特征函数为 ϕ(t)=(1−2it)−k/2。
可加性
卡方分布具有可加性 (Additivity):若 X1∼χ2(k1) 与 X2∼χ2(k2) 相互独立,则它们的和服从自由度为两者之和的卡方分布:
X1+X2∼χ2(k1+k2)
这一性质直接源于定义——将 k1+k2 个独立标准正态变量的平方和拆分为两组分别求和,再相加即得。可加性使得卡方分布在方差分析 (ANOVA) 的平方和分解中扮演无可替代的角色,也是 Cochran 定理的理论基石。
Cochran 定理
Cochran 定理 (Cochran's Theorem) 是线性模型和方差分析中最深刻的数学结果之一。设 Z=(Z1,…,Zn)T 为独立标准正态随机变量的向量,即 Z∼N(0,In)。若存在一组秩为 ri 的对称幂等矩阵 A1,A2,…,Am 满足 ∑i=1mAi=In,则二次型 Qi=ZTAiZ 相互独立且 Qi∼χ2(ri)。Cochran 定理确保了在正态线性模型的假设下,总平方和可以被正交分解为若干个独立卡方分量——这正是 F检验 中分子和分母卡方统计量独立性的理论保证。该定理是推导 t 统计量和 F 统计量分布的基础。
与其他分布的关系
卡方分布与多种核心统计分布存在精确的函数关系,这些关系构成了经典统计推断的分布理论基础。
与正态分布的关系:卡方分布由标准正态变量的平方和定义而来,是其构造起点。更一般地,若 X∼N(μ,σ2),则 (X−μ)2/σ2∼χ2(1)。对于多元情形,若 X∼Np(μ,Σ),则 (X−μ)TΣ−1(X−μ)∼χ2(p),即马氏距离的平方服从卡方分布。
与 t 分布的关系:若 Z∼N(0,1) 与 V∼χ2(k) 相互独立,则随机变量 T=Z/V/k 服从自由度为 k 的t分布。这一定义直接用于单样本和两样本均值检验中 t 统计量的构造。
与 F 分布的关系:若 U∼χ2(d1) 与 V∼χ2(d2) 相互独立,则 (U/d1)/(V/d2)∼F(d1,d2),即F分布。F 分布本质上是两个独立卡方变量(各自除以自由度)的比值,这一结构使得 F 检验能够比较两个方差的估计量。
与指数分布的关系:χ2(2) 等价于尺度参数为 2 的指数分布,即 Exp(1/2)。
非中心卡方分布:若构成平方和的正态变量具有非零均值,即 Zi∼N(μi,1) 且 ∑Zi2 不再服从中心卡方分布,而是非中心卡方分布 χ2(k,λ),其中 λ=∑μi2 为非中心参数。非中心卡方分布在计算检验的功效 (Power) 和第二类错误概率时至关重要。
核心应用
拟合优度检验 (Goodness-of-Fit Test):Pearson卡方检验 是最经典的应用。当检验观测频数 Oi 与期望频数 Ei 的偏离是否显著时,统计量 ∑(Oi−Ei)2/Ei 在原假设下近似服从 χ2 分布,自由度取决于类别数及估计参数的个数。
独立性检验 (Test of Independence):在列联表分析中,行变量与列变量独立性的卡方检验统计量同样近似服从卡方分布,自由度等于 (r−1)(c−1),其中 r 和 c 分别为行数和列数。
方差估计与置信区间:对于来自正态总体 N(μ,σ2) 的样本,∑(Xi−Xˉ)2/σ2∼χ2(n−1),利用这一关系可以构造总体方差 σ2 的置信区间。
似然比检验:在大样本下,似然比检验统计量 −2logΛ 在原假设成立时近似服从卡方分布,自由度等于约束条件的个数。这一性质使得卡方分布成为现代计量经济学中 Wald检验、拉格朗日乘数检验 和似然比检验的共同渐近基础。
模型选择:AIC、BIC 等信息准则中,卡方分布的对数似然形式与惩罚项之间的关系,是模型比较理论的重要组成。
分位数与临界值
卡方分布的上侧 α 分位数记为 χα2(k),满足 P(X>χα2(k))=α。由于卡方分布不对称且定义域限于正半轴,其临界值表通常同时列出上侧和下侧分位数。在实践中,统计软件(如 R 中的 \texttt{qchisq} 函数)可直接计算任意自由度下的精确分位数。当自由度较大(通常 k>40)时,可采用正态近似:χα2(k)≈k+zα2k,其中 zα 为标准正态分布的上侧 α 分位数。也可使用 Wilson-Hilferty 变换——(kX)1/3 近似服从 N(1−9k2,9k2)——获得更为精确的近似。