# 列联表 (Contingency Table)
列联表 (Contingency Table),也称为 交叉分类表 (Cross-Tabulation) 或 交互分类表 (Crosstab),是{{{统计学}}}中用于展示两个或多个{{{分类变量}}} (Categorical Variables) 频率分布的一种表格形式。它的核心功能是直观地呈现变量不同类别之间的相互关系,并为检验这些变量是否{{{独立}}}提供基础数据。
列联表是{{{描述性统计}}}和{{{推断性统计}}}中的一个基本工具,广泛应用于社会科学、医学研究、市场分析和生物统计学等领域。
## 列联表的结构
一个基本的列联表,即 二维列联表 (Two-way Table),由行和列构成。其中,一个变量的各个类别构成行,另一个变量的各个类别构成列。表格的每个单元格 (cell) 显示了同时满足特定行类别和列类别的观测对象的频数 (frequency) 或计数 (count)。
一个具有 $R$ 个行类别和 $C$ 个列类别的列联表,通常被称为 $R \times C$ 列联表。
### 核心组成部分
以一个 $R \times C$ 列联表为例,其结构包含以下要素:
1. 联合频数 (Joint Frequencies):位于表格内部的单元格中的数值,记作 $O_{ij}$ (或 $n_{ij}$),表示同时属于行变量第 $i$ 个类别和列变量第 $j$ 个类别的观测数。这里的 $O$ 代表“观测值 (Observed)”。
2. 边际频数 (Marginal Frequencies): * 行合计 (Row Totals):每行所有单元格频数的总和,记作 $R_i = \sum_{j=1}^{C} O_{ij}$。它表示行变量第 $i$ 个类别的总频数。 * 列合计 (Column Totals):每列所有单元格频数的总和,记作 $C_j = \sum_{i=1}^{R} O_{ij}$。它表示列变量第 $j$ 个类别的总频数。
3. 总计 (Grand Total):表格中所有观测值的总数,记作 $N$。它等于所有行合计之和,也等于所有列合计之和。 $$ N = \sum_{i=1}^{R} R_i = \sum_{j=1}^{C} C_j = \sum_{i=1}^{R} \sum_{j=1}^{C} O_{ij} $$
示例:一个研究吸烟状况与肺癌关系的 $2 \times 2$ 列联表。
| | 患有肺癌 | 未患肺癌 | 行合计 | | :---------- | :------: | :------: | :----------: | | 吸烟者 | $a$ | $b$ | $a + b$ | | 非吸烟者 | $c$ | $d$ | $c + d$ | | 列合计 | $a + c$ | $b + d$ | $N$ |
在此表中: * $a, b, c, d$ 是联合频数。 * $a+b$ 和 $c+d$ 是行边际频数。 * $a+c$ 和 $b+d$ 是列边际频数。 * $N = a+b+c+d$ 是总样本量。
## 基于列联表的统计分析
列联表的主要分析目标是判断行变量和列变量之间是否存在统计学上的关联性 (association)。
### 独立性卡方检验 (Chi-squared Test of Independence)
这是分析列联表最常用的{{{假设检验}}}方法。它用于检验两个分类变量是否相互独立。
* {{{原假设}}} ($H_0$):两个变量是独立的。即一个变量的取值不影响另一个变量的取值。 * {{{备择假设}}} ($H_1$):两个变量是不独立的(即存在关联性)。
检验的核心思想是比较 观测频数 (Observed Frequencies, $O_{ij}$) 和在原假设成立前提下的 期望频数 (Expected Frequencies, $E_{ij}$)。
1. 计算期望频数 ($E_{ij}$)
如果两个变量是独立的,那么某个特定单元格的频数应该只与它所在的行合计、列合计和总计有关。其计算公式为: $$ E_{ij} = \frac{(\text{第 } i \text{ 行的合计}) \times (\text{第 } j \text{ 列的合计})}{\text{总计}} = \frac{R_i \times C_j}{N} $$ 这个公式的直观理解是:在独立性的假设下,第 $i$ 行的观测值在各个列中的分布比例,应该和整个样本在各个列中的分布比例相同。
2. 计算卡方统计量 ($\chi^2$)
卡方统计量度量了观测频数与期望频数之间的总差异。差异越大,越有理由拒绝原假设。 $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$ 这个求和覆盖了表中所有的单元格。
3. 确定自由度 (Degrees of Freedom, df)
对于一个 $R \times C$ 的列联表,其{{{自由度}}}计算公式为: $$ df = (R-1) \times (C-1) $$ 自由度代表了表中可以自由变化的单元格数量。
4. 做出统计决策
计算出的 $\chi^2$ 统计量服从{{{卡方分布}}} (Chi-squared Distribution)。通过将计算得到的 $\chi^2$ 值与在特定{{{显著性水平}}} ($\alpha$) 下的临界值进行比较,或者直接计算其对应的{{{p值}}} (p-value),可以做出决策。 * 如果 p-value < $\alpha$(例如,$\alpha = 0.05$),则拒绝原假设 $H_0$,认为两个变量之间存在显著的统计关联。 * 如果 p-value $\ge \alpha$,则不拒绝原假设 $H_0$,认为没有足够证据表明变量之间存在关联。
### 关联性强度度量
卡方检验只能告诉我们是否存在关联,但不能说明关联的强度。为此,我们需要使用一些关联性度量指标。
* Phi系数 ($\phi$):专门用于 $2 \times 2$ 列联表。 $$ \phi = \sqrt{\frac{\chi^2}{N}} $$ 其值通常在0到1之间,越接近1表示关联性越强。对于 $2 \times 2$ 表,其值域为 -1 到 1,可以体现负相关。
* Cramér's V:是 Phi 系数的推广,适用于任意大小的列联表。 $$ V = \sqrt{\frac{\chi^2}{N \cdot \min(R-1, C-1)}} $$ 其值域为 [0, 1],0表示完全独立,1表示完全关联。它是一个常用的关联强度衡量标准。
* {{{比值比}}} (Odds Ratio, OR):在医学和流行病学研究中,对于 $2 \times 2$ 表,比值比是一个非常重要的指标。对于前述吸烟与肺癌的例子: * 吸烟者中患肺癌的“比值”(odds) 是 $a/b$。 * 非吸烟者中患肺癌的“比值”是 $c/d$。 * 比值比 (OR) 就是这两个比值的比率: $$ OR = \frac{a/b}{c/d} = \frac{ad}{bc} $$ * 解释: * $OR = 1$:表示暴露(吸烟)与结果(肺癌)无关。 * $OR > 1$:表示暴露会增加结果发生的比值(风险因素)。 * $OR < 1$:表示暴露会降低结果发生的比值(保护因素)。
## 高维列联表
当分析涉及三个或更多分类变量时,就需要构建 三维或更高维的列联表。例如,在研究吸烟、性别与肺癌的关系时,可以为男性和女性分别创建一个 $2 \times 2$ 的吸烟-肺癌列联表。
高维列联表是分析{{{混杂变量}}} (Confounding Variable) 和交互作用的重要工具。一个著名的例子是{{{辛普森悖论}}} (Simpson's Paradox),该悖论指出,在分组数据中观察到的关联趋势,在将数据合并后可能会消失甚至逆转。分析高维列联表可以帮助我们发现并理解这种现象。对于高维表的分析,通常采用更复杂的统计模型,如{{{对数线性模型}}} (Log-linear Models)。