知经 KNOWECON · 卓越的经济金融统计数学学习平台

列联表分析

# 列联表分析 (Contingency Table Analysis)

列联表分析 (Contingency Table Analysis) 是一种核心的{{{统计学}}}方法,专门用于研究两个或多个{{{分类变量}}} (Categorical Variables) 之间是否存在关联性(或称“相依性”,Association)。它通过将数据整理在一个名为 列联表 (Contingency Table) 的矩阵格式表格中,来检验变量间的独立性假设。这种分析在{{{社会科学}}}、{{{医学研究}}}、{{{市场营销}}}和{{{生物统计学}}}等领域应用极为广泛。

一个列联表,也称为 交叉分类表 (Cross-tabulation),其行 (rows) 表示一个分类变量的各个类别,列 (columns) 表示另一个分类变量的各个类别。表格中的每个单元格 (cell) 显示了同时属于特定行类别和列类别的观测对象的频数(即计数)。

例如,一个研究吸烟状况与肺癌关系的 $2 \times 2$ 列联表可能如下所示:

| | 患有肺癌 | 未患肺癌 | 行合计 | | :--- | :---: | :---: | :---: | | 吸烟者 | $a$ | $b$ | $a+b$ | | 非吸烟者 | $c$ | $d$ | $c+d$ | | 列合计 | $a+c$ | $b+d$ | $N = a+b+c+d$ |

- 单元格中的 $a, b, c, d$ 称为 观测频数 (Observed Frequencies)。 - 表的边缘的合计值(如 $a+b$ 或 $a+c$)称为 边际频数 (Marginal Frequencies)。 - $N$ 是总观测数,称为 总计 (Grand Total)。

## 核心问题:独立性与关联性

列联表分析的核心目标是回答一个基本问题:这两个分类变量是 相互独立的 (Independent) 还是 相互关联的 (Associated)?

- {{{独立性}}} (Independence):如果两个变量是独立的,意味着一个变量的取值分布不随另一个变量的取值变化而变化。换句话说,知道一个个体在某个变量上的分类,并不能帮助我们预测其在另一个变量上的分类。在上述例子中,如果吸烟与肺癌无关,那么吸烟者中患肺癌的比例应该与非吸烟者中患肺癌的比例大致相等。 - 关联性 (Association):如果两个变量是关联的,意味着一个变量的取值分布会随着另一个变量的取值而改变。例如,如果吸烟者中患肺癌的比例显著高于非吸烟者,我们就认为吸烟与肺癌之间存在关联。

为了客观地判断这种关联性是否存在,我们通常使用{{{假设检验}}}的方法,其中最经典的是 皮尔逊卡方检验 (Pearson's Chi-squared Test)。

## 卡方检验 (Chi-squared Test)

{{{卡方检验}}}是一种{{{非参数检验}}},用于比较观测频数与基于某个{{{原假设}}}(通常是独立性假设)计算出的期望频数 (Expected Frequencies) 之间的差异。

#### 1. 建立假设

- 原假设 ($H_0$):两个变量相互独立。 - 备择假设 ($H_a$):两个变量不独立(即存在关联)。

#### 2. 计算期望频数 ($E_{ij}$)

如果原假设成立(即变量独立),我们可以推算出每个单元格的理论频数,即期望频数。其计算逻辑是:在独立的情况下,一个观测同时落入第 $i$ 行和第 $j$ 列的{{{概率}}}是“落入第 $i$ 行的概率”乘以“落入第 $j$ 列的概率”。

$$ P(\text{行} i \text{ 且 列} j) = P(\text{行} i) \times P(\text{列} j) $$

用样本数据估计这些概率: $P(\text{行} i) \approx \frac{\text{行} i \text{ 的合计}}{\text{总计}}$ $P(\text{列} j) \approx \frac{\text{列} j \text{ 的合计}}{\text{总计}}$

因此,单元格 $(i, j)$ 的期望频数 $E_{ij}$ 为:

$$ E_{ij} = N \times P(\text{行} i) \times P(\text{列} j) = N \times \frac{(\text{行} i \text{ 的合计})}{N} \times \frac{(\text{列} j \text{ 的合计})}{N} = \frac{(\text{行} i \text{ 的合计}) \times (\text{列} j \text{ 的合计})}{\text{总计}} $$

#### 3. 计算卡方统计量 ($\chi^2$)

{{{卡方统计量}}}衡量了所有单元格中观测频数 ($O_{ij}$) 与期望频数 ($E_{ij}$) 之间差异的总和。公式如下:

$$ \chi^2 = \sum_{\text{所有单元格}} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$

- 这个值的直观意义是:如果观测值与期望值非常接近,$\chi^2$ 的值会很小,支持原假设;反之,如果差异很大,$\chi^2$ 的值会很大,表明数据与独立性假设不符,应拒绝原假设。

#### 4. 确定{{{自由度}}}并做出决策

卡方统计量服从一个{{{卡方分布}}} (Chi-squared Distribution)。该分布的形状由其{{{自由度}}} (Degrees of Freedom, df) 决定。对于一个 $r \times c$ 的列联表($r$ 行 $c$ 列),自由度为:

$$ df = (r-1) \times (c-1) $$

计算出 $\chi^2$ 值和自由度后,我们可以查找{{{p值}}} (p-value)。

- p值:在原假设为真的前提下,获得当前观测到的这么大(或更大)的 $\chi^2$ 值的概率。 - 决策:将p值与预设的{{{显著性水平}}} $\alpha$(通常为0.05)进行比较。 - 如果 $p \le \alpha$,我们拒绝原假设,认为两个变量之间存在{{{统计学意义}}}上的关联。 - 如果 $p > \alpha$,我们不能拒绝原假设,认为没有足够证据表明变量之间存在关联。

## 关联强度度量

卡方检验只能告诉我们关联是否存在,但无法衡量关联的 强度。一个在统计上显著的关联可能在实际中非常弱。因此,我们需要使用关联强度度量指标。

- Phi系数 ($\phi$):适用于 $2 \times 2$ 列联表。 $$ \phi = \sqrt{\frac{\chi^2}{N}} $$ 其值在-1和+1之间,解释类似于{{{相关系数}}}。

- Cramér's V:适用于任意大小的列联表,是对Phi系数的推广。 $$ V = \sqrt{\frac{\chi^2}{N \times \min(r-1, c-1)}} $$ 其值在0和1之间。0表示完全独立,1表示完全关联。数值越大,关联性越强。

- {{{优势比}}} (Odds Ratio, OR):在$2 \times 2$表中非常重要,尤其在{{{流行病学}}}中。它表示暴露组中事件发生的{{{优势}}} (Odds) 是非暴露组的多少倍。 对于前述 $2 \times 2$ 表,吸烟者患肺癌的优势是 $a/b$,非吸烟者患肺癌的优势是 $c/d$。优势比为: $$ OR = \frac{a/b}{c/d} = \frac{ad}{bc} $$ - $OR = 1$:表示暴露与事件无关。 - $OR > 1$:表示暴露是事件的风险因素(如吸烟增加患癌风险)。 - $OR < 1$:表示暴露是事件的保护因素。

## 使用条件与扩展

- 卡方检验的假设: 1. 观测独立性:样本中的每个观测都是独立的。 2. 期望频数足够大:通常要求所有单元格的期望频数 $E_{ij} \ge 5$。当此条件不满足时(尤其是在样本量小或分类多的情况下),卡方检验的近似可能不准确。此时应考虑使用 {{{Fisher精确检验}}} (Fisher's Exact Test)。

- 相关与扩展模型: - 当数据是配对的时(如同一组人在干预前后的变化),应使用 {{{McNemar检验}}}。 - 当考虑第三个混杂变量时,可以使用分层列联表分析,如{{{Cochran-Mantel-Haenszel检验}}}。 - 更复杂的分类数据关系可以通过{{{对数线性模型}}} (Log-linear Model) 或 {{{逻辑回归}}} (Logistic Regression) 等广义线性模型进行建模,这些模型可以看作是列联表分析的一般化和扩展。