知经 KNOWECON · 卓越的经济金融统计数学学习平台

卡方统计量

# 卡方统计量 (Chi-squared Statistic)

卡方统计量 (Chi-squared Statistic),通常表示为 $\chi^2$,是{{{统计学}}}中用于{{{假设检验}}}的一种核心{{{统计量}}}。它的根本用途是衡量{{{观测频率}}} (Observed Frequencies) 与基于某一{{{原假设}}} ($H_0$) 计算出的{{{期望频率}}} (Expected Frequencies) 之间的差异或离散程度。

这个统计量构成了{{{皮尔逊卡方检验}}} (Pearson's chi-squared test) 的基础,广泛应用于两种主要的分析场景:

1. {{{拟合优度检验}}} (Goodness-of-Fit Test):检验一组观测数据是否来自于某个特定的{{{概率分布}}}。 2. {{{独立性检验}}} (Test of Independence):检验两个{{{分类变量}}} (Categorical Variables) 是否相互独立。

从本质上讲,$\chi^2$ 统计量量化了“我们实际观测到的情况”与“如果我们假设的理论(即原假设)是正确的,我们期望看到的情况”之间的总偏差。

## 核心定义与公式

卡方统计量的计算公式如下:

$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$

其中: * $\chi^2$ 是卡方统计量的值。 * $O_i$ 是第 $i$ 个类别的 观测频率(Observed Frequency),即在{{{样本}}}中实际出现的次数。 * $E_i$ 是第 $i$ 个类别的 期望频率(Expected Frequency),即在原假设为真的前提下,理论上期望出现的次数。 * $k$ 是总的类别数量。 * $\sum_{i=1}^{k}$ 表示对所有 $k$ 个类别进行求和。

公式解读: * $(O_i - E_i)$:这是每个类别中观测值与期望值之间的原始差异。 * $(O_i - E_i)^2$:将差异平方,这样做有两个目的:(1) 消除正负差异的抵消效应;(2) 使得较大的差异在总和中占有更大的权重。 * $\frac{(O_i - E_i)^2}{E_i}$:将平方差异除以期望频率,实现了一种“标准化”。这非常关键,因为一个大小为10的差异,在期望值为1000的情况下可能无足轻重,但在期望值为20的情况下则非常显著。通过除以 $E_i$,我们将差异的大小与其期望的基数联系起来。

最终,通过将所有类别的标准化平方差异相加,我们得到了一个能够衡量整体拟合程度的单一数值。

## 统计量的性质与逻辑

卡方统计量的值具有以下关键性质: * 非负性:由于它是平方和,$\chi^2$ 的值永远大于或等于 0。 * 与差异的关系: * 当观测频率与期望频率非常接近时(即 $O_i \approx E_i$),$\chi^2$ 的值会很小,趋近于 0。这表明数据与原假设高度吻合。 * 当观测频率与期望频率之间存在巨大差异时(即 $O_i$ 与 $E_i$ 相差甚远),$\chi^2$ 的值会很大。这表明数据与原假设存在显著矛盾,为拒绝原假设提供了证据。

在假设检验中,这个计算出的 $\chi^2$ 值需要与一个理论分布进行比较,以判断其“大”到何种程度才算是统计显著的。这个理论分布就是 {{{卡方分布}}} (Chi-squared Distribution)

## 卡方分布与自由度

在原假设为真且满足一定条件(如下文所述)的前提下,卡方统计量近似服从一个由{{{自由度}}} (Degrees of Freedom, df) 参数决定的卡方分布。

自由度是构建统计量时能够自由变化的分量的数量。自由度的计算方式取决于具体的检验类型:

* 对于拟合优度检验: $$ df = k - 1 - m $$ 其中 $k$ 是类别数, $m$ 是根据样本数据估计出的、用于计算期望频率的参数个数。如果期望频率的计算不需要估计任何参数(例如,检验骰子是否均匀时,每个面的概率都是预先给定的 $1/6$),则 $m=0$,$df = k-1$。

* 对于独立性检验(在{{{列联表}}}中): $$ df = (r - 1)(c - 1) $$ 其中 $r$ 是列联表的行数,$c$ 是列联表的列数。

一旦计算出 $\chi^2$ 统计量和自由度 $df$,我们就可以通过比较 $\chi^2$ 值和在特定{{{显著性水平}}} ($\alpha$) 下的临界值,或者直接计算{{{p值}}} (p-value),来做出统计决策。通常,这是一个右尾检验,因为我们只关心 $\chi^2$ 值是否过大。

## 应用场景详解

### 1. 拟合优度检验 (Goodness-of-Fit Test)

此检验用于判断样本的频率分布是否与某个理论分布相符。

* 原假设 ($H_0$):样本数据来自于一个特定的理论分布。 * 备择假设 ($H_1$):样本数据不来自于该理论分布。

示例:一家公司声称其生产的M&M巧克力豆颜色分布为:30%棕色,20%黄色,20%红色,10%绿色,10%橙色,10%蓝色。我们随机抽取一袋包含500颗巧克力豆的样本,观测到各种颜色的数量如下:

| 颜色 | 观测频率 (O) | 理论比例 | 期望频率 (E) | | :--- | :---: | :---: | :---: | | 棕色 | 140 | 0.30 | $500 \times 0.30 = 150$ | | 黄色 | 108 | 0.20 | $500 \times 0.20 = 100$ | | 红色 | 95 | 0.20 | $500 \times 0.20 = 100$ | | 绿色 | 55 | 0.10 | $500 \times 0.10 = 50$ | | 橙色 | 52 | 0.10 | $500 \times 0.10 = 50$ | | 蓝色 | 50 | 0.10 | $500 \times 0.10 = 50$ | | 总计 | 500 | 1.00 | 500 |

计算 $\chi^2$ 统计量: $$ \chi^2 = \frac{(140-150)^2}{150} + \frac{(108-100)^2}{100} + \frac{(95-100)^2}{100} + \frac{(55-50)^2}{50} + \frac{(52-50)^2}{50} + \frac{(50-50)^2}{50} $$ $$ \chi^2 = \frac{100}{150} + \frac{64}{100} + \frac{25}{100} + \frac{25}{50} + \frac{4}{50} + 0 $$ $$ \chi^2 \approx 0.667 + 0.64 + 0.25 + 0.5 + 0.08 + 0 = 2.137 $$ 自由度 $df = k-1 = 6-1=5$。将 $\chi^2 = 2.137$ 与自由度为5的卡方分布临界值比较,可以判断该差异是否显著。

### 2. 独立性检验 (Test of Independence)

此检验用于判断两个分类变量之间是否存在关联。数据通常以{{{列联表}}} (Contingency Table) 的形式呈现。

* 原假设 ($H_0$):两个变量相互独立。 * 备择假设 ($H_1$):两个变量不独立(即存在关联)。

在独立性假设下,单元格 $(i, j)$ 的期望频率计算公式为: $$ E_{ij} = \frac{(\text{第 } i \text{ 行的总计}) \times (\text{第 } j \text{ 列的总计})}{\text{样本总数}} $$ 然后,使用所有单元格的 $O_{ij}$ 和 $E_{ij}$ 计算总的 $\chi^2$ 统计量。

## 使用条件与假设 为了确保卡方检验的有效性,必须满足以下条件: 1. 随机抽样:数据必须从目标总体中{{{随机抽样}}}获得。 2. 分类数据:数据必须是计数的频率数据,而非百分比或连续数据。 3. 期望频率的最小值:这是最关键的条件。一般要求所有类别的期望频率 $E_i$ 都不应太小。普遍接受的经验法则是: * 所有期望频率 $E_i$ 都应大于等于 5 ($E_i \ge 5$)。 * 一个较为宽松的标准是:允许不超过20%的类别的期望频率小于5,但任何类别的期望频率都不能小于1。 * 如果此条件不满足,卡方统计量可能不服从卡方分布,导致检验结果不可靠。此时可以考虑合并类别或使用其他检验方法(如Fisher精确检验)。 4. 独立观测:样本中的每个观测值都应是独立的。