ARTICLE
列联表分析
列联表分析 (Contingency Table Analysis) 列联表分析 (Contingency Table Analysis) 是一种核心的统计学方法,专门用于研究两个或多个分类变量之间是否存在关联性。通过将数据整理在列联表中,检验变量间的独立性假设,该方法在社会科学、医学研究、市场营销和生物统计学等领域应用极为广泛。 列联表(交叉分类表)的行表
列联表分析 (Contingency Table Analysis)
列联表分析 (Contingency Table Analysis) 是一种核心的统计学方法,专门用于研究两个或多个分类变量之间是否存在关联性。通过将数据整理在列联表中,检验变量间的独立性假设,该方法在社会科学、医学研究、市场营销和生物统计学等领域应用极为广泛。
列联表(交叉分类表)的行表示一个分类变量的各个类别,列表示另一个分类变量的各个类别,每个单元格显示同时属于特定行类别和列类别的观测频数。以吸烟与肺癌的 表为例:行维度区分吸烟者(频数 )和非吸烟者(频数 ),列维度区分患肺癌与未患肺癌。行合计为 和 ,列合计为 和 ,总计 。边缘合计称为边际频数,单元格 为观测频数。
核心问题:独立性与关联性
列联表分析的核心目标是判断两个分类变量是相互独立还是相互关联。独立性意味着一个变量的取值分布不随另一个变量变化,知道个体在某个变量上的分类不能帮助预测另一个变量上的分类。若吸烟与肺癌无关,吸烟者患肺癌比例应与非吸烟者大致相等。关联性则表示一个变量的取值分布随另一个变量取值而改变。为客观判断关联性,通常使用假设检验中最经典的皮尔逊卡方检验。
卡方检验
卡方检验是一种非参数检验,比较观测频数与基于原假设(独立性)计算出的期望频数之间的差异。
- 建立假设:原假设 为两变量相互独立,备择假设 为两变量不独立即存在关联。
- 计算期望频数:若原假设成立,单元格 的期望频数为该行合计与列合计之积除以总计: \[ E_{ij} = \frac{(\text{行} i \text{合计}) \times (\text{列} j \text{合计})}{\text{总计}} \] 该公式源于独立条件下联合概率等于边际概率乘积。
- 计算卡方统计量:卡方统计量衡量所有单元格观测频数 与期望频数 的总差异: \[ \chi^2 = \sum_{\text{所有单元格}} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \] 观测值与期望值接近时 很小,支持原假设;差异大则 大,应拒绝原假设。
- 确定自由度并决策:卡方统计量服从卡方分布。对 列联表,自由度 。计算p值后与预设显著性水平 (通常0.05)比较: 则拒绝原假设,认为存在统计学意义上的关联; 则不能拒绝。
关联强度度量
卡方检验只能判断关联是否存在,无法衡量关联强度,需借助专门指标。
Phi系数 适用于 表,取值在-1到+1之间,解释类似相关系数。
Cramér's V 是Phi系数的推广,适用于任意大小列联表:
取值0到1之间,0表示完全独立,1表示完全关联,数值越大关联越强。
优势比在 表中尤为重要,尤其在流行病学中。吸烟者患肺癌的优势为 ,非吸烟者为 ,优势比 。 表示暴露与事件无关, 为风险因素, 为保护因素。
使用条件与扩展
卡方检验的关键假设包括观测独立性和期望频数足够大(通常要求所有 )。当此条件不满足时卡方近似不准确,应考虑Fisher精确检验。
配对数据应使用McNemar检验。当需控制第三个混杂变量时,可采用分层列联表分析如Cochran-Mantel-Haenszel检验。更复杂的分类数据关系可通过对数线性模型或逻辑回归等广义线性模型进行建模,这些模型可视为列联表分析的一般化和扩展。