ARTICLE
分类变量的关联性分析
分类变量的关联性分析 (Analysis of Association for Categorical Variables) 分类变量的关联性分析 是一系列统计学方法的总称,用于检验和度量两个或多个分类变量 (Categorical Variables) 之间是否存在统计学上的关系。与衡量连续变量之间关系的相关分析 (Correlation Analysis
分类变量的关联性分析 (Analysis of Association for Categorical Variables)
分类变量的关联性分析 是一系列统计学方法的总称,用于检验和度量两个或多个分类变量 (Categorical Variables) 之间是否存在统计学上的关系。与衡量连续变量之间关系的相关分析 (Correlation Analysis) 或回归分析 (Regression Analysis) 不同,此分析专注于处理非数值型数据,例如性别、产品偏好、教育水平或疾病状态。
其核心目标是回答以下问题:一个变量的取值是否会随着另一个变量的取值变化而系统性地变化?如果答案是肯定的,我们就说这两个变量之间存在 关联 (Association);反之,如果一个变量的取值分布在另一个变量的各个类别中都是相似的,我们就说这两个变量是 独立的 (Independent)。这一分析框架在市场研究、流行病学、社会学等众多领域具有广泛的应用价值。
核心工具:列联表 (Contingency Table)
分析分类变量关联性的起点通常是构建一个 列联表,也称为 交叉分类表 (Cross-Tabulation)。这是一个二维或多维的表格,用于展示两个或多个分类变量的联合频率分布。
考虑一个 的列联表,它表示一个变量有 个类别,另一个变量有 个类别:
| 变量1 / 变量2 | 类别 1 | 类别 2 | | 类别 c | 行合计 | | :--- | :---: | :---: | :---: | :---: | :---: | | 类别 A | | | | | | | 类别 B | | | | | | | | | | | | | | 类别 r | | | | | | | 列合计 | | | | | |
其中:
- 代表位于第 行和第 列单元格的 观测频数 (Observed Frequency),即同时满足行变量第 类别和列变量第 类别的样本数量。
- 是第 行的边际合计 (Marginal Total)。
- 是第 列的边际合计。
- 是总样本量 (Grand Total)。
检验关联性:卡方检验 (Chi-Squared Test)
最常用的检验两个分类变量是否独立的方法是 皮尔逊卡方检验 (Pearson's Chi-Squared Test, Test)。该检验通过比较观测频数与期望频数之间的差异来判断变量间是否存在关联。
假设的建立
卡方检验是一种假设检验。其原假设和备择假设为:
- 原假设 ():两个变量是相互独立的。
- 备择假设 ():两个变量不是独立的,即它们之间存在关联。
计算期望频数 (Expected Frequency)
期望频数 () 是在原假设(即变量相互独立)成立的情况下,我们期望在每个单元格中看到的频数。如果两变量独立,则某个单元格的联合概率等于其对应边际概率的乘积。期望频数的计算公式为:
如果观测频数 与期望频数 相差很大,则表明数据与独立性假设不符,我们更有理由拒绝原假设。
计算卡方统计量 ()
卡方统计量度量了所有单元格中观测频数与期望频数之间的总差异。其计算公式为:
该统计量越大,表示观测数据与独立性假设的偏离程度越大,从而越倾向于认为变量之间存在关联。卡方统计量的精确分布在理论上可通过置换检验获得,但在大样本条件下近似服从卡方分布,因此实际应用中通常直接使用卡方分布进行推断。
做出决策
为了判断 统计量是否足够大以拒绝原假设,我们需要考虑自由度 (Degrees of Freedom, df) 并确定p值 (p-value)。
- 自由度 (df):对于一个 的列联表,自由度为 。
- 决策规则:
- 计算出的 统计量服从一个近似的卡方分布。
- 根据该统计量和相应的自由度,计算出 p-值。
- 将p-值与预设的显著性水平 (通常为 0.05 或 0.01)进行比较。如果 ,则拒绝原假设,得出结论:两个变量之间存在统计上显著的关联。
注意:卡方检验依赖渐进近似,要求样本量足够大。通常所有单元格的期望频数 不小于1,且至少80\%的单元格不小于5。当此条件不满足时(尤其对于小样本 表),应考虑使用 费雪精确检验 (Fisher's Exact Test)。
度量关联强度 (Measures of Association)
卡方检验的显著性告诉我们关联存在,但并不直接告诉我们关联有多强。需要使用关联强度指标(即效应量)来量化关系的大小。
基于 的指标 (适用于名义变量)
这些指标通过对 统计量进行标准化处理来消除样本量对结果的影响,使关联强度在不同研究中具有可比性。
- Phi系数 ():专用于 列联表,值域通常在0到1之间。
- Cramér's V (克莱姆V):Phi系数对大于 表格的推广,值域为0到1。
适用于有序变量的指标
当两个分类变量都是有序的(如"低、中、高"),可以度量关联的方向和强度。
- Gamma ():值域为-1到1,基于数据对的一致对 (Concordant Pairs) 和 不一致对 (Discordant Pairs) 的比较。
- Kendall's Tau ():有多个版本(如Tau-b和Tau-c),对数据中的结 (Ties) 进行不同校正。
- Somers' D:不对称关联度量,适用于一个变量被视为自变量而另一个被视为因变量的情景。
事后分析 (Post-Hoc Analysis)
当大于 的列联表卡方检验显著时,事后分析可识别哪些具体的类别组合对整体显著性贡献最大。常用方法是通过计算每个单元格的 标准化残差 (Standardized Residuals) 来定位关键单元格:
更精确的 调整后标准化残差 (Adjusted Standardized Residuals) 进一步考虑了行列边际的影响。若其绝对值大于1.96或2.58(对应正态分布95\%或99\%置信水平),则该单元格是关联性的重要来源。
相关高级模型
当分析涉及三个或更多分类变量时,更高级的模型包括: