ARTICLE

卡方统计量

卡方统计量 (Chi-squared Statistic) 卡方统计量(Chi-squared Statistic),通常表示为 ^2,是统计学中用于假设检验的一种核心统计量。它的根本用途是衡量观测频率(Observed Frequencies)与基于某一原假设(H_0)计算出的期望频率(Expected Frequencies)之间的差异或离散程度。 这个

浏览 26 更新 2025-10-26

卡方统计量 (Chi-squared Statistic)

卡方统计量(Chi-squared Statistic),通常表示为 χ2\chi^2,是统计学中用于假设检验的一种核心统计量。它的根本用途是衡量观测频率(Observed Frequencies)与基于某一原假设H0H_0)计算出的期望频率(Expected Frequencies)之间的差异或离散程度。

这个统计量构成了皮尔逊卡方检验(Pearson's chi-squared test)的基础,广泛应用于两种主要的分析场景:

  1. 拟合优度检验(Goodness-of-Fit Test):检验一组观测数据是否来自于某个特定的概率分布
  2. 独立性检验(Test of Independence):检验两个分类变量(Categorical Variables)是否相互独立。

从本质上讲,χ2\chi^2 统计量量化了"我们实际观测到的情况"与"如果我们假设的理论(即原假设)是正确的,我们期望看到的情况"之间的总偏差。它由卡尔·皮尔逊(Karl Pearson)于 1900 年提出,是统计推断史上最深远的影响之一,将定性判断转化为定量决策。

核心定义与公式

卡方统计量的计算公式如下:

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

其中:

  • χ2\chi^2 是卡方统计量的值。
  • OiO_i 是第 ii 个类别的 观测频率(Observed Frequency),即在样本中实际出现的次数。
  • EiE_i 是第 ii 个类别的 期望频率(Expected Frequency),即在原假设为真的前提下,理论上期望出现的次数。
  • kk 是总的类别数量。
  • i=1k\sum_{i=1}^{k} 表示对所有 kk 个类别进行求和。

公式解读:

  • (OiEi)(O_i - E_i):每个类别中观测值与期望值之间的原始差异。
  • (OiEi)2(O_i - E_i)^2:将差异平方,消除正负抵消效应,并使较大差异获得更高权重。
  • (OiEi)2Ei\frac{(O_i - E_i)^2}{E_i}:以期望频率为基准进行"标准化"——大小为 10 的差异在期望值 1000 时无足轻重,在期望值 20 时却极为显著。除以 EiE_i 将差异量级与期望基数绑定。

将所有类别的标准化平方差异求和,得到一个衡量整体拟合程度的单一数值。

统计量的性质与逻辑

卡方统计量的值具有以下关键性质:

  • 非负性:作为平方和,χ20\chi^2 \ge 0 恒成立。
  • 与差异的关系: \begin{itemize}
  • OiEiO_i \approx E_i 时,χ20\chi^2 \to 0,数据与原假设高度吻合。
  • OiO_iEiE_i 相差甚远时,χ2\chi^2 很大,为拒绝原假设提供证据。

\end{itemize}

在假设检验中,计算出的 χ2\chi^2 值需与一个理论分布比较,判断其"大"到何种程度才算统计显著。这个理论分布正是 卡方分布(Chi-squared Distribution)

卡方分布与自由度

在原假设为真且满足一定条件的前提下,卡方统计量近似服从由自由度(Degrees of Freedom, dfdf)参数决定的卡方分布

自由度是构建统计量时能够自由变化的分量数量。其计算方式取决于检验类型:

  • 拟合优度检验: \[ df = k - 1 - m \] 其中 kk 为类别数,mm 为根据样本数据估计的、用于计算期望频率的参数个数。若期望频率的计算不需估计参数(如检验骰子是否均匀),则 m=0m = 0df=k1df = k - 1
  • 独立性检验(在列联表中): \[ df = (r - 1)(c - 1) \] 其中 rr 为列联表行数,cc 为列联表列数。

一旦计算出 χ2\chi^2 统计量和自由度 dfdf,便可将其与特定显著性水平α\alpha)下的临界值比较,或直接计算p值(p-value),做出统计决策。卡方检验是右尾检验——仅当 χ2\chi^2 过大时拒绝原假设。

应用场景详解

拟合优度检验(Goodness-of-Fit Test)

检验样本的频率分布是否与某个理论分布相符。

  • 原假设(H0H_0):样本数据来自特定理论分布。
  • 备择假设(H1H_1):样本数据不来自该理论分布。

示例:某公司声称其 M\&M 巧克力豆颜色分布为:30\% 棕色、20\% 黄色、20\% 红色、10\% 绿色、10\% 橙色、10\% 蓝色。随机抽取一袋 500 颗的样本:

\begin{tabular}{c|c|c|c} 颜色 \& 观测频率 OO \& 理论比例 \& 期望频率 EE \\ \hline 棕色 \& 140 \& 0.30 \& 500×0.30=150500 \times 0.30 = 150 \\ 黄色 \& 108 \& 0.20 \& 500×0.20=100500 \times 0.20 = 100 \\ 红色 \& 95 \& 0.20 \& 500×0.20=100500 \times 0.20 = 100 \\ 绿色 \& 55 \& 0.10 \& 500×0.10=50500 \times 0.10 = 50 \\ 橙色 \& 52 \& 0.10 \& 500×0.10=50500 \times 0.10 = 50 \\ 蓝色 \& 50 \& 0.10 \& 500×0.10=50500 \times 0.10 = 50 \\ \hline 总计 \& 500 \& 1.00 \& 500 \\ \end{tabular}

计算得:

χ2=(140150)2150+(108100)2100+(95100)2100+(5550)250+(5250)250+(5050)250\chi^2 = \frac{(140-150)^2}{150} + \frac{(108-100)^2}{100} + \frac{(95-100)^2}{100} + \frac{(55-50)^2}{50} + \frac{(52-50)^2}{50} + \frac{(50-50)^2}{50}

\\

χ20.667+0.64+0.25+0.5+0.08+0=2.137\chi^2 \approx 0.667 + 0.64 + 0.25 + 0.5 + 0.08 + 0 = 2.137

自由度 df=61=5df = 6 - 1 = 5。在 α=0.05\alpha = 0.05 水平下,χ0.05,52=11.07\chi^2_{0.05, 5} = 11.072.137<11.072.137 < 11.07,不能拒绝原假设——数据与声称的颜色分布无显著差异。

独立性检验(Test of Independence)

判断两个分类变量是否存在关联。数据以列联表形式呈现。

  • 原假设(H0H_0):两个变量相互独立。
  • 备择假设(H1H_1):两个变量不独立(存在关联)。

独立性假设下,单元格 (i,j)(i, j) 的期望频率为:

Eij=(第 i 行的总计)×(第 j 列的总计)样本总数E_{ij} = \frac{(\text{第 } i \text{ 行的总计}) \times (\text{第 } j \text{ 列的总计})}{\text{样本总数}}

对所有单元格按公式 (OijEij)2Eij\sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} 求和即得卡方统计量,自由度为 (r1)(c1)(r-1)(c-1)

使用条件与假设

为确保卡方检验的有效性,必须满足:

  1. 随机抽样:数据必须从目标总体中随机抽样获得。
  2. 分类数据:数据必须是计数的频率数据,而非百分比或连续数据。
  3. 期望频率最小值(最关键):普遍接受的经验法则是所有 Ei5E_i \ge 5;较宽松的标准允许不超过 20\% 的类别 Ei<5E_i < 5,但任何类别 Ei1E_i \ge 1。若不满足,卡方近似可能不可靠,应考虑合并类别或使用Fisher精确检验
  4. 独立观测:每个观测值应彼此独立。

与其他统计量的关系及局限

卡方统计量是统计推断三大检验(Wald检验似然比检验拉格朗日乘数检验)之外最广泛使用的检验工具。它在列联表分析中的效应量衍生指标包括Cramér's VPhi系数——卡方本身只判断关联"有无",不衡量"强弱"。

主要局限:其一,卡方统计量对样本量敏感——极大样本下,微不足道的实际差异也可能统计显著,因此必须同时报告效应量;其二,期望频数过小时卡方近似失真;其三,该统计量仅反映对独立性的偏离程度,不提供因果方向信息。