ARTICLE
effect size
效应量 (Effect Size) 效应量 (Effect Size) 是数理统计和计量经济学中衡量某种现象或干预效应大小的标准化指标,与统计显著性(如p值)关注"效应是否存在"不同,效应量回答"效应有多大"这一更具实质意义的问题。在零假设显著性检验 (NHST) 的传统框架下,p值对样本量高度敏感——样本量极大时,微小的实质性差异也可在统计上显著;反之小样
效应量 (Effect Size)
效应量 (Effect Size) 是数理统计和计量经济学中衡量某种现象或干预效应大小的标准化指标,与统计显著性(如p值)关注"效应是否存在"不同,效应量回答"效应有多大"这一更具实质意义的问题。在零假设显著性检验 (NHST) 的传统框架下,p值对样本量高度敏感——样本量极大时,微小的实质性差异也可在统计上显著;反之小样本中即使存在大效应也可能无法检测。效应量的引入正是为了弥补这一局限,为研究结果提供不受样本量左右的可比度量。
常见效应量指标
根据研究设计和数据类型,效应量主要有以下形式:
基于均值的效应量。对于两组比较,最常用的是 Cohen's d,定义为两组均值之差除以合并标准差:
Cohen's d 的一个变体是 Hedges' g,其在小样本下对 d 施加了无偏修正。按照 Cohen (1988) 的经验指南: 为小效应, 为中等效应, 为大效应。但这一分类标准是领域依赖的——在劳动经济学中,教育干预的效应量通常较小( 即具政策意义),而在临床医学中可能要求较大的效应量。
基于方差的效应量。在方差分析 (ANOVA) 框架中,常用 eta-squared () 和偏 eta-squared () 度量某个因子对因变量变异的解释比例:
由于 在总体中的有偏性,omega-squared () 作为其无偏版本常被推荐用于报告。在回归分析中,决定系数 和 Cohen's 即为方差解释型效应量,后者定义为 ,在统计功效分析中用于确定所需样本量。
基于关联的效应量。皮尔逊相关系数 本身即为一种效应量,、、 分别对应小、中、大效应阈值。在列联表分析中,优势比 (Odds Ratio, OR) 和风险比 (Risk Ratio, RR) 用于度量分类变量间的关联强度。OR 的范围为 ,OR = 1 表示无关联,越远离 1 表示效应越强。
效应量与统计显著性的关系
效应量与假设检验并非对立而是互补。一个完整的分析应同时报告效应量及其置信区间,以及显著性检验的结果。效应量的置信区间特别提供了效应估计的精度信息——宽置信区间意味着估计的不确定性大,通常源于小样本。
在Meta分析中,效应量是核心分析单位。研究者将来自不同文献的效应量(如 Cohen's d 或相关系数 )转换为共同尺度后,通过固定效应模型或随机效应模型进行加权平均,以得出跨研究的综合效应估计。效应量的异质性指标(如 统计量、)则用于判断合并是否合理,以及是否存在调节变量值得进一步探索。
功效分析与样本量规划
效应量在先验功效分析 (A Priori Power Analysis) 中起关键作用。研究者需根据预期效应量、期望达到的统计功效 (通常 0.80)和显著性水平 (通常 0.05)来确定研究所需的最小样本量。若预期的效应量很小(如 ),则需要极大样本才能以足够功效检测到该效应。实际应用中,预期效应量的设定可借鉴领域内的已有文献、前期研究或试点数据。
在计量经济学中,效应量的思想虽常隐于结构参数的解释中——如工具变量法估计的边际效应、双重差分法的处理效应系数——但其核心关切相同:估计值的大小是否有实质性意义,而非仅满足于统计显著性。近年来,经济学界对"p值崇拜"的反思日益强烈,美国经济学会旗下期刊已明确鼓励报告效应量及其置信区间,而非仅呈现星号标记的显著性水平。