卡方统计量 (Chi-Squared Statistic)
卡方统计量 (Chi-Squared Statistic),通常记为 χ2,是统计学和计量经济学中使用最广泛的检验统计量之一。它基于观测频数与期望频数之间的差异来衡量数据与理论假设之间的偏离程度。其名称来源于它所服从的卡方分布 (Chi-Squared Distribution)。卡方统计量是假设检验中非参数推断的基石,广泛应用于拟合优度检验、独立性检验以及回归模型中参数的联合检验。
数学定义
设 Z1,Z2,…,Zk 是 k 个相互独立且服从标准正态分布 N(0,1) 的随机变量,则它们的平方和定义为一个服从卡方分布、具有 k 个自由度的随机变量:
Q=i=1∑kZi2∼χ2(k)
卡方分布的基本性质包括:期望值 E[χ2(k)]=k;方差 Var(χ2(k))=2k;取值范围 χ2≥0;可加性:若 Q1∼χ2(k1) 与 Q2∼χ2(k2) 独立,则 Q1+Q2∼χ2(k1+k2)。
卡方统计量的构造
在实际应用中,卡方统计量的通用形式为:
χ2=i=1∑mEi(Oi−Ei)2
其中 Oi 为观测频数,Ei 为期望频数,m 为类别总数。若零假设为真,观测频数应接近期望频数;除以 Ei 的作用是标准化,使小期望单元格中的偏差获得更大权重。
主要应用
皮尔逊卡方拟合优度检验
用于检验样本数据是否来自某个特定的理论分布。零假设 H0:数据服从指定分布;备择假设 H1:数据不服从该分布。
χ2=i=1∑mnpi(Oi−npi)2
该统计量在 H0 下近似服从自由度为 m−1−s 的卡方分布,其中 s 是由样本估计的分布参数个数。
卡方独立性检验
用于判断两个分类变量之间是否存在统计关联。数据以 列联表 (Contingency Table) 组织。在独立性假设下:
Eij=nRi×Cj
χ2=i=1∑rj=1∑cEij(Oij−Eij)2
其自由度为 (r−1)(c−1)。当期望频数过小时,可考虑费舍尔精确检验 (Fisher's Exact Test)。
方差检验
对来自正态总体的样本,可构造:
χ2=σ02(n−1)s2∼χ2(n−1)
以检验总体方差 σ2 是否等于 σ02。
计量经济学中的联合假设检验
在线性回归模型中,拉格朗日乘数检验 (LM Test)、似然比检验 (LRT) 和沃尔德检验 (Wald Test) 在大样本下均收敛于卡方分布。沃尔德统计量为:
W=(Rβ^−r)′[R⋅Var(β^)⋅R′]−1(Rβ^−r)dχ2(q)
与其它分布的关系
- 卡方与正态分布:k 个独立标准正态随机变量的平方和即为 χ2(k)。
- 卡方与 t 分布:若 Z∼N(0,1) 且 Q∼χ2(k) 独立,则 T=Z/Q/k∼t(k)。
- 卡方与 F 分布:若 Q1∼χ2(k1) 且 Q2∼χ2(k2) 独立,则 F=Q2/k2Q1/k1∼F(k1,k2)。
- 卡方与伽马分布:χ2(k)≡Γ(k/2,2)。
重要性与局限
卡方统计量被广泛使用,因其非参数特性、构造直观,且作为三大渐进检验的共同极限分布构成现代计量经济学假设检验的理论基础。
- 样本量敏感性:大样本中微不足道的偏离也可能统计显著,需配合效应量 (Effect Size) 指标(如 Cramér's V)报告。
- 期望频数约束:期望频数过小时近似不可靠。
- 独立性假定:在聚类抽样或配对设计中需使用修正版本。
- 方向性缺失:卡方检验本身是双侧、非定向的。
- 连续变量离散化的信息损失:在可能时,Kolmogorov-Smirnov 检验或Anderson-Darling 检验可能具有更高的检验功效。