ARTICLE

Chi-squared distribution

卡方分布 (Chi-squared Distribution) 卡方分布 ( ^2 分布,Chi-squared Distribution) 是概率论与统计学中最重要的连续概率分布之一,在假设检验、置信区间估计和方差分析中占据核心地位。若 Z_1, Z_2, , Z_k 是 k 个相互独立的标准正态分布随机变量,即每个 Z_i N(0, 1),则它们的平方和

浏览 0 更新 2026-06-19

卡方分布 (Chi-squared Distribution)

卡方分布 (χ2\chi^2 分布,Chi-squared Distribution) 是概率论统计学中最重要的连续概率分布之一,在假设检验置信区间估计和方差分析中占据核心地位。若 Z1,Z2,,ZkZ_1, Z_2, \ldots, Z_kkk 个相互独立的标准正态分布随机变量,即每个 ZiN(0,1)Z_i \sim N(0, 1),则它们的平方和服从自由度为 kk 的卡方分布:

Q=i=1kZi2χ2(k)Q = \sum_{i=1}^{k} Z_i^2 \sim \chi^2(k)

其中参数 kN+k \in \mathbb{N}^+ 称为自由度 (Degrees of Freedom),是卡方分布唯一的参数,决定了分布的一切统计特性。卡方分布的定义域为 (0,+)(0, +\infty),即随机变量始终取正值——这是平方和定义的直接结果。

概率密度函数与分布形态

自由度为 kk 的卡方分布的概率密度函数 (PDF) 为:

f(x;k)=12k/2Γ(k/2)xk/21ex/2,x>0f(x; k) = \frac{1}{2^{k/2} \,\Gamma(k/2)} \, x^{k/2 - 1} \, e^{-x/2}, \quad x > 0

其中 Γ()\Gamma(\cdot)Gamma函数。当 x0x \leq 0 时,f(x;k)=0f(x; k) = 0。该密度函数的形式揭示了一个重要事实:卡方分布本质上是 Gamma分布 的特例。具体而言,χ2(k)\chi^2(k) 等价于形状参数为 k/2k/2、尺度参数为 22 的 Gamma 分布,即 χ2(k)Γ(k/2,2)\chi^2(k) \sim \Gamma(k/2, 2),或等价地,等价于形状参数为 k/2k/2、速率参数为 1/21/2 的 Gamma 分布。

分布形态随自由度 kk 的变化呈现规律性演变。当 k=1k = 1 时,PDF 在 x0+x \to 0^+ 处趋于无穷(呈 x1/2x^{-1/2} 发散),形态高度右偏且没有定义在 x=0x = 0 处的有限密度值。当 k=2k = 2 时,PDF 退化为尺度参数为 22指数分布,即 f(x;2)=12ex/2f(x; 2) = \frac{1}{2}e^{-x/2},在 x=0x = 0 处密度为 1/21/2,呈单调递减形态。当 k3k \geq 3 时,分布呈现单峰形态,众数出现在 x=k2x = k - 2 处。随着 kk 增大,根据中心极限定理,卡方分布逐渐趋近于正态分布:当 kk \to \infty 时,χ2(k)\chi^2(k) 近似服从 N(k,2k)N(k, 2k)

矩与统计特征

卡方分布的矩具有简洁的解析形式。设 Xχ2(k)X \sim \chi^2(k),则:

期望E[X]=kE[X] = k。这从定义直接可得——每个 Zi2Z_i^2 的期望为 11(因为 E[Zi2]=Var(Zi)+[E(Zi)]2=1+0=1E[Z_i^2] = \operatorname{Var}(Z_i) + [E(Z_i)]^2 = 1 + 0 = 1),kk 个独立项之和的期望即为 kk

方差Var(X)=2k\operatorname{Var}(X) = 2k。每个 Zi2Z_i^2 的方差为 E[Zi4][E(Zi2)]2=31=2E[Z_i^4] - [E(Z_i^2)]^2 = 3 - 1 = 2,独立项求和后方差相加。

偏度 (Skewness):γ1=8/k\gamma_1 = \sqrt{8/k}。偏度始终为正(右偏),但随着自由度增大,偏度以 O(k1/2)O(k^{-1/2}) 的速率收敛至零。

峰度 (Kurtosis,超额峰度):γ2=12/k\gamma_2 = 12/k。超额峰度以 O(k1)O(k^{-1}) 收敛于零,印证了大自由度下趋近正态的趋势。

矩母函数 (MGF):M(t)=E[etX]=(12t)k/2M(t) = E[e^{tX}] = (1 - 2t)^{-k/2},定义域为 t<1/2t < 1/2。特征函数为 ϕ(t)=(12it)k/2\phi(t) = (1 - 2it)^{-k/2}

可加性

卡方分布具有可加性 (Additivity):若 X1χ2(k1)X_1 \sim \chi^2(k_1)X2χ2(k2)X_2 \sim \chi^2(k_2) 相互独立,则它们的和服从自由度为两者之和的卡方分布:

X1+X2χ2(k1+k2)X_1 + X_2 \sim \chi^2(k_1 + k_2)

这一性质直接源于定义——将 k1+k2k_1 + k_2 个独立标准正态变量的平方和拆分为两组分别求和,再相加即得。可加性使得卡方分布在方差分析 (ANOVA) 的平方和分解中扮演无可替代的角色,也是 Cochran 定理的理论基石。

Cochran 定理

Cochran 定理 (Cochran's Theorem) 是线性模型和方差分析中最深刻的数学结果之一。设 Z=(Z1,,Zn)TZ = (Z_1, \ldots, Z_n)^T 为独立标准正态随机变量的向量,即 ZN(0,In)Z \sim N(0, I_n)。若存在一组秩为 rir_i 的对称幂等矩阵 A1,A2,,AmA_1, A_2, \ldots, A_m 满足 i=1mAi=In\sum_{i=1}^{m} A_i = I_n,则二次型 Qi=ZTAiZQ_i = Z^T A_i Z 相互独立且 Qiχ2(ri)Q_i \sim \chi^2(r_i)。Cochran 定理确保了在正态线性模型的假设下,总平方和可以被正交分解为若干个独立卡方分量——这正是 F检验 中分子和分母卡方统计量独立性的理论保证。该定理是推导 tt 统计量和 FF 统计量分布的基础。

与其他分布的关系

卡方分布与多种核心统计分布存在精确的函数关系,这些关系构成了经典统计推断的分布理论基础。

与正态分布的关系:卡方分布由标准正态变量的平方和定义而来,是其构造起点。更一般地,若 XN(μ,σ2)X \sim N(\mu, \sigma^2),则 (Xμ)2/σ2χ2(1)(X - \mu)^2 / \sigma^2 \sim \chi^2(1)。对于多元情形,若 XNp(μ,Σ)X \sim N_p(\mu, \Sigma),则 (Xμ)TΣ1(Xμ)χ2(p)(X - \mu)^T \Sigma^{-1} (X - \mu) \sim \chi^2(p),即马氏距离的平方服从卡方分布。

与 t 分布的关系:若 ZN(0,1)Z \sim N(0, 1)Vχ2(k)V \sim \chi^2(k) 相互独立,则随机变量 T=Z/V/kT = Z / \sqrt{V/k} 服从自由度为 kkt分布。这一定义直接用于单样本和两样本均值检验中 tt 统计量的构造。

与 F 分布的关系:若 Uχ2(d1)U \sim \chi^2(d_1)Vχ2(d2)V \sim \chi^2(d_2) 相互独立,则 (U/d1)/(V/d2)F(d1,d2)(U/d_1)/(V/d_2) \sim F(d_1, d_2),即F分布。F 分布本质上是两个独立卡方变量(各自除以自由度)的比值,这一结构使得 F 检验能够比较两个方差的估计量。

与指数分布的关系χ2(2)\chi^2(2) 等价于尺度参数为 22 的指数分布,即 Exp(1/2)\text{Exp}(1/2)

非中心卡方分布:若构成平方和的正态变量具有非零均值,即 ZiN(μi,1)Z_i \sim N(\mu_i, 1)Zi2\sum Z_i^2 不再服从中心卡方分布,而是非中心卡方分布 χ2(k,λ)\chi^2(k, \lambda),其中 λ=μi2\lambda = \sum \mu_i^2 为非中心参数。非中心卡方分布在计算检验的功效 (Power) 和第二类错误概率时至关重要。

核心应用

拟合优度检验 (Goodness-of-Fit Test):Pearson卡方检验 是最经典的应用。当检验观测频数 OiO_i 与期望频数 EiE_i 的偏离是否显著时,统计量 (OiEi)2/Ei\sum (O_i - E_i)^2 / E_i 在原假设下近似服从 χ2\chi^2 分布,自由度取决于类别数及估计参数的个数。

独立性检验 (Test of Independence):在列联表分析中,行变量与列变量独立性的卡方检验统计量同样近似服从卡方分布,自由度等于 (r1)(c1)(r-1)(c-1),其中 rrcc 分别为行数和列数。

方差估计与置信区间:对于来自正态总体 N(μ,σ2)N(\mu, \sigma^2) 的样本,(XiXˉ)2/σ2χ2(n1)\sum (X_i - \bar{X})^2 / \sigma^2 \sim \chi^2(n-1),利用这一关系可以构造总体方差 σ2\sigma^2 的置信区间。

似然比检验:在大样本下,似然比检验统计量 2logΛ-2 \log \Lambda 在原假设成立时近似服从卡方分布,自由度等于约束条件的个数。这一性质使得卡方分布成为现代计量经济学中 Wald检验拉格朗日乘数检验 和似然比检验的共同渐近基础。

模型选择AICBIC 等信息准则中,卡方分布的对数似然形式与惩罚项之间的关系,是模型比较理论的重要组成。

分位数与临界值

卡方分布的上侧 α\alpha 分位数记为 χα2(k)\chi^2_{\alpha}(k),满足 P(X>χα2(k))=αP(X > \chi^2_{\alpha}(k)) = \alpha。由于卡方分布不对称且定义域限于正半轴,其临界值表通常同时列出上侧和下侧分位数。在实践中,统计软件(如 R 中的 \texttt{qchisq} 函数)可直接计算任意自由度下的精确分位数。当自由度较大(通常 k>40k > 40)时,可采用正态近似:χα2(k)k+zα2k\chi^2_{\alpha}(k) \approx k + z_{\alpha} \sqrt{2k},其中 zαz_{\alpha} 为标准正态分布的上侧 α\alpha 分位数。也可使用 Wilson-Hilferty 变换——(Xk)1/3(\frac{X}{k})^{1/3} 近似服从 N(129k,29k)N(1 - \frac{2}{9k}, \frac{2}{9k})——获得更为精确的近似。