ARTICLE
contingency table
contingency table 列联表(Contingency Table)是用于汇总两个或多个分类数据变量的联合频数分布的一种表格结构。它将样本按照两个(或多个)分类变量的取值交叉分组,在表格单元格中填入同时满足行、列条件的观测频数(Observed Frequency)。列联表是分类数据分析中最基础和广泛使用的工具,横跨统计学、社会科学、流行病学、计
contingency table
列联表(Contingency Table)是用于汇总两个或多个分类数据变量的联合频数分布的一种表格结构。它将样本按照两个(或多个)分类变量的取值交叉分组,在表格单元格中填入同时满足行、列条件的观测频数(Observed Frequency)。列联表是分类数据分析中最基础和广泛使用的工具,横跨统计学、社会科学、流行病学、计量经济学和机器学习评估等众多领域。
基本结构与符号
最简单的列联表是 表,即两个二分类变量交叉形成四格表。例如,研究性别(男/女)与是否购买保险(是/否)之间的关系:
\begin{tabular}{c|cc|c} \hline \& 购买 \& 未购买 \& 合计 \\ \hline 男性 \& \& \& \\ 女性 \& \& \& \\ \hline 合计 \& \& \& \\ \hline \end{tabular}
其中 表示行变量取第 类、列变量取第 类的联合频数, 为行边际频数, 为列边际频数, 为总样本量。更一般的 列联表则包含 行和 列。
每个单元格的联合概率 与边际概率 、 之间的关系构成了列联表分析的概率论基础。在独立假设下,,即联合概率等于边际概率之积。
独立性检验与卡方统计量
列联表分析的核心问题是检验行变量与列变量是否统计独立。皮尔逊卡方检验(Pearson's Chi-Squared Test)是最经典的方法。在独立性零假设 下,期望频数为 ,检验统计量为:
在 下, 渐近服从自由度为 的卡方分布。当 超过临界值时拒绝独立性假设。
另一个等价的选择是似然比检验(Likelihood Ratio Test),统计量为:
在大样本下 与 趋近一致,但在小样本中表现可能不同。对于 表,当样本量较小或期望频数过低时,通常采用费雪精确检验(Fisher's Exact Test),它基于超几何分布计算精确 值,不依赖大样本近似。
耶茨连续性校正(Yates' Continuity Correction)对 表中的 进行了调整,通过将每个 减去 0.5 来使离散分布更接近连续的卡方分布。但该校正往往过于保守,现代实践中更推荐直接使用费雪精确检验或未校正的似然比检验。
关联度量
卡方检验只能判断关联是否统计显著,却无法量化关联强度——在样本量足够大时,即使微弱的关联也可能统计显著。为此,一系列关联度量(Measures of Association)被提出。
系数(phi coefficient):专用于 表,定义为 ,等价于两个二元变量之间的皮尔逊相关系数。 的取值范围为 ,0 表示独立, 表示完全关联。
Cramér's V(Cramér's V):将 推广到 表,定义为:
的范围为 ,0 表示独立,1 表示完全关联。Cramér's V 是最常用的列联表关联度量之一,因为它消除了表格维度和样本量的影响,使不同规模和形状的表格之间可以比较关联强度。
列联系数(Contingency Coefficient):,其理论上限小于 1,取决于表格维度,因此不如 Cramér's V 便于跨表比较。
优势比(Odds Ratio):在 表中,优势比 是最具解释力的关联度量。 表示独立, 表示正关联, 表示负关联。优势比的优势在于其对研究设计的不敏感性:无论是前瞻性队列研究还是回顾性病例对照研究,优势比在特定条件下保持不变,这使其成为流行病学和医学研究中的核心效应量。
分层列联表与辛普森悖论
当存在第三个分类变量 可能混淆 与 的关系时,需要在各 水平上分别构造列联表,形成分层列联表。Cochran-Mantel-Haenszel 检验(CMH 检验)是处理分层 表的标准方法,通过在各层内计算关联并在层间汇总,得到控制了混杂变量后的条件关联。
分层列联表分析自然引向辛普森悖论(Simpson's Paradox):在每一层内 与 的关联方向相同,但将所有层合并后,关联方向可能反转。这一现象在经济学观察研究中屡见不鲜——例如,整体数据显示受教育程度与收入正相关,但按行业分层后某些行业内可能呈现不同模式。辛普森悖论警示研究者不可盲目依赖合并表格,必须在理论指导下审慎选择分层策略。
经济学与社会科学中的应用
在劳动经济学中,列联表被用于分析性别、种族与就业状态、职业类型之间的关联。在发展经济学中,农户调查数据常以列联表形式呈现,分析教育水平与技术采纳、信贷获取之间的关联。在市场研究中,消费者特征(年龄组、收入层级)与品牌选择、购买意愿的交叉制表是标准的描述性分析步骤。
在机器学习的模型评估中,混淆矩阵(Confusion Matrix)本质上就是一个 列联表,其行对应真实类别(正/负),列对应预测类别(正/负)。由此衍生出精度(Precision)、召回率(Recall)、F1-score 和 AUC-ROC 等评估指标。在多分类问题中,混淆矩阵扩展为 表。
在计量经济学中,列联表分析是离散选择模型(如逻辑回归、probit 模型)的初步描述工具。当被解释变量和解释变量均为分类变量时,列联表提供的关联信息可作为模型设定的起点。但列联表只能揭示边际关联,无法控制多个协变量,因此通常需要进一步引入对数线性模型(Log-Linear Model)或广义线性模型来估计净效应。
与对数线性模型的关系
列联表中的联合频数可以被建模为对数线性形式:
其中 和 分别捕捉行效应和列效应,交互项 捕捉偏离独立的程度。当 对所有 成立时,模型退化为独立模型。对数线性模型可以自然地扩展到三维或更高维列联表,纳入更复杂的交互结构,从而将列联表分析置于广义线性模型的统一框架之下。这一框架还允许引入连续型协变量,突破了原始列联表仅能处理分类变量的局限。
注意事项与局限性
列联表分析的有效性依赖于若干假设:观测相互独立(通常由抽样设计保证)、期望频数不宜过小(传统经验规则要求 80\% 以上单元格的期望频数 ,且所有单元格 )。当期望频数过低时,卡方近似失效,应转而使用费雪精确检验或其推广形式。
此外,列联表捕捉的是关联而非因果。即使卡方检验高度显著且 Cramér's V 较大,也不能据此推断因果方向——两个变量的关联可能完全由第三个未观测的混杂变量驱动。在经济学研究中,列联表最适合作为探索性数据分析和假设生成的第一步,而非因果推断的最终手段。