ARTICLE
phi coefficient
Phi Coefficient Phi 系数( 系数,读作"fai")是衡量两个二元变量(binary variable)之间关联强度的统计量,由 Karl Pearson 于 1900 年引入。对于 2 2 列联表, 系数的值域为 [-1, 1],绝对值越大表示关联越强,正值表示正相关,负值表示负相关,零表示统计独立。它是适用于二分类变量场景的 皮尔逊相关
Phi Coefficient
Phi 系数( 系数,读作"fai")是衡量两个二元变量(binary variable)之间关联强度的统计量,由 Karl Pearson 于 1900 年引入。对于 列联表, 系数的值域为 ,绝对值越大表示关联越强,正值表示正相关,负值表示负相关,零表示统计独立。它是适用于二分类变量场景的 皮尔逊相关系数的特殊形式,在心理测量学、项目分析、医学统计和机器学习中有广泛应用。
定义与公式
设有两个二元变量 和 ,各自取值为 0 或 1。从 个观测中可构建 列联表:
\begin{table}[h] \centering \begin{tabular}{c|cc|c} \hline \& \& \& 合计 \\ \hline \& \& \& \\ \& \& \& \\ \hline 合计 \& \& \& \\ \hline \end{tabular} \end{table}
其中 为各格子的观测频数,。
Phi 系数的标准公式为:
分子 刻画了偏离独立性的方向与幅度:当 时 ,表示两个变量倾向于同时出现(1,1 与 0,0);当 时 ,表示一个变量为 1 时另一个变量倾向于为 0。分母是所有边际频数乘积的平方根,将分子标准化至 之间。
与卡方检验的关系
Phi 系数与卡方独立性检验有直接的代数关系:
其中 是同一张 列联表的皮尔逊卡方统计量。这一关系揭示了 系数的本质:它是经过样本量标准化后的卡方统计量的平方根。
由此可以导出基于卡方统计量的显著性检验。原假设 (即变量独立)下,检验统计量 渐近服从自由度为 1 的卡方分布。当 时拒绝独立性原假设,即 系数统计显著。对于 表,当任何期望频数小于 5 时,应使用耶茨连续性校正或费雪精确检验替代渐近检验。
与皮尔逊相关系数的等价性
将二元变量 和 编码为数值 0 与 1 后直接计算皮尔逊相关系数 ,其结果与 系数完全一致:
这一等价性赋予 系数直观的几何解释: 等于两个二元变量在 维空间中对应向量的夹角余弦(中心化后),因此 当且仅当两个变量完全线性相关。同时, 等于将 对 做线性回归的决定系数 ,即一个二元变量能解释另一个二元变量变异的比例。
不过,与适用于连续变量的皮尔逊 不同, 系数的值域会受边际分布的限制。设两个变量的正类(编码为 1)比例分别为 和 ,则 系数的理论极值并非总是 ,而是取决于边际比例的差异:
当两侧边际比例不等时,,这意味着即使变量有完美的单调关系, 系数也可能达不到 。这一性质被称为"边际约束"或"天花板效应",容易导致低估变量间的真实关系强度,在对比例失衡的稀有事件研究中尤其需要警惕。
推广:Cramér's V
当列联表规模超过 时(例如一个变量有 行、另一个变量有 列), 系数的取值范围不再限制在 内,而是可以超过 1,变得难以解释。为此,Harald Cramér 提出了Cramér's V 统计量:
Cramér's V 的值域为 ,0 表示完全独立,1 表示完全关联,且不依赖于表的维度。对于 表,,此时 ,即 Cramér's V 退化为 系数的绝对值。因此可以将 系数视为 Cramér's V 在二分类场景下的有符号版本。
其他相关度量包括列联系数(contingency coefficient)和Tschuprow's T,前者同样源于卡方统计量但上限小于 1,后者适用于方形列联表。实践中 Cramér's V 因其一致的上界而最为常用, 系数则因其保留方向信息而在 表中不可替代。
应用场景
心理测量与项目分析:在经典测验理论(CTT)中, 系数用于计算项目区分度——一个二值计分题目(如对/错题)与测验总分的二值划分(如及格/不及格)之间的关联程度。高 值意味着该题目能有效区分高分组与低分组被试。同时,两个二值计分题目之间的 系数反映了题目间的同质性,是计算KR-20信度的基础。
医学诊断研究:在评估诊断工具准确性时, 系数可衡量诊断结果(阳性/阴性)与金标准(患病/未患病)之间的一致性。它与灵敏度、特异度和优势比(odds ratio)有紧密的数学联系。事实上,优势比恒可由 系数的代数形式表达:
机器学习与特征选择:在二分类任务的特征工程中, 系数可作为过滤式特征选择的标准。计算每个二元特征与目标标签之间的 系数,保留绝对值大于阈值的特征以简化模型、降低过拟合风险。相比信息增益, 系数保留了符号方向信息,便于解释特征的正负影响方向。
生态学与生物统计学:用于分析物种的共现模式。两个物种在某样方中存在与否(0/1 数据)之间的 系数可以揭示它们是否倾向于共生或排斥,正向值指示共生关系,负向值指示竞争排斥。
解释与报告指南
报告 系数时应包含其数值、符号、样本量和 值。建议参考 J. Cohen 的经验基准: 为弱效应, 为中等效应, 为强效应。但 Cohen 基准主要基于社会科学通用的 效应量(Cohen's ),当边际比例严重失衡时应谨慎使用,优先考虑比较 与 的比值以评估相对于天花板的实现程度。
一个常见误区是将 系数的高统计显著性(低 值)等同于高实际关联性。由于 ,样本量极大时即使 极小(如 0.01),卡方检验也可能显著。因此必须同时报告效应量本身而非仅依赖 值。报告格式可参考:。
局限与注意事项
系数的主要局限包括:(1)边际分布约束,如上所述,比例不均时最大绝对值受限,可能误导解释;(2)对称性, 系数是对称度量(),无法揭示方向性因果关系,需借助逻辑回归或对数线性模型区分预测与被预测关系;(3)仅适用于二分类,对于多分类或连续变量需退而使用 Cramér's V 或多序列相关系数;(4)对零单元格敏感,当 任一为零时 (若对应格子的边际也匹配),但在小样本中可能具有误导性,建议结合贝叶斯方法或平滑估计。
尽管如此,Phi 系数作为二分类关联度量的经典工具,其简洁的公式、与卡方检验和皮尔逊相关性的紧密联系、以及直观的解释逻辑,使其在统计学的教学与应用中占据稳固地位。它几乎是每个研究者学习列联表分析时最先接触的效应量指标,也是从检验思维过渡到估计思维的重要桥梁。