ARTICLE

Effect Size

效应量 (Effect Size) 效应量 (Effect Size) 是统计学与计量经济学中衡量某种现象、干预或关系强度的标准化定量指标。与统计显著性回答"效应是否存在"不同,效应量回答"效应有多大"——这一区分对科学研究具有根本重要性。在零假设显著性检验 (NHST) 的经典框架下,p值对样本量高度敏感:当样本量趋向无穷时,任何微小的、实质上无意义的差异

浏览 0 更新 2026-07-18

效应量 (Effect Size)

效应量 (Effect Size) 是统计学计量经济学中衡量某种现象、干预或关系强度的标准化定量指标。与统计显著性回答"效应是否存在"不同,效应量回答"效应有多大"——这一区分对科学研究具有根本重要性。在零假设显著性检验 (NHST) 的经典框架下,p值对样本量高度敏感:当样本量趋向无穷时,任何微小的、实质上无意义的差异都将在统计上显著;反之,小样本下即使存在重要效应也可能因检验力不足而无法被检测。效应量正是为突破这一困境而生的概念工具,为不同研究之间提供不受样本量左右的、可比较的效应度量尺度。

效应量的主要分类

效应量并无唯一度量,其选择取决于研究设计、数据类型和分析目标。大致可分为三大族系:

均值差异族 (d-family)。最经典的当属Cohen's d,定义为两组均值之差除以合并标准差:d=(Xˉ1Xˉ2)/spd = (\bar{X}_1 - \bar{X}_2)/s_p。该指标将原始测量尺度的差异转化为标准差单位,使得用不同工具测量的研究结果可以横向比较。Cohen (1988) 提出经验基准:d=0.20|d| = 0.20 为小效应,0.500.50 为中等效应,0.800.80 为大效应。其变体 Hedges' g 在小样本下施加无偏修正:g=d[13/(4n1+4n29)]g = d \cdot [1 - 3/(4n_1 + 4n_2 - 9)]。对于两组以上设计,Cohen's f 适用于方差分析框架:f=η2/(1η2)f = \sqrt{\eta^2/(1-\eta^2)},其中 η2\eta^2 为组间平方和与总平方和之比。Cohen 给出的对应基准为 f=0.10f = 0.10(小)、0.250.25(中)、0.400.40(大)。在两组建模的特殊情况下,f=d/2f = d/2

关联强度族 (r-family)皮尔逊相关系数 rr 本身即为效应量:r=0.10|r| = 0.100.300.300.500.50 分别对应小、中、大效应阈值。在分类数据分析中,优势比 (Odds Ratio, OR) 和风险比 (Risk Ratio, RR) 度量二值变量间的关联强度——OR = 1 表示无关联,越偏离 1 效应越强。对于 2×22 \times 2 列联表,Cramér's V卡方统计量中导出关联强度:V=χ2/(nmin(r1,c1))V = \sqrt{\chi^2/(n \cdot \min(r-1, c-1))},介于 0 到 1 之间。

方差解释族。在回归与方差分析中,决定系数 R2R^2eta-squared (η2\eta^2) 度量模型或因子所解释的结果变异比例,天然具有效应量的解释功能。但由于 R2R^2η2\eta^2 在总体中的正向偏误,adjusted R2R^2omega-squared (ω2\omega^2) 提供了经自由度修正的无偏替代。Cohen's f2f^2 则专用于回归中局部效应的度量:f2=(Rfull2Rreduced2)/(1Rfull2)f^2 = (R^2_{\text{full}} - R^2_{\text{reduced}})/(1-R^2_{\text{full}}),其基准为 f2=0.02f^2 = 0.02(小)、0.150.15(中)、0.350.35(大)。

效应量与统计显著性的互补逻辑

效应量与 p 值并非非此即彼的对立选项,而是提供互补信息的两种推断工具。统计显著性(p 值)回答了"在零假设为真的前提下,观察到当前或更极端数据的概率",而效应量回答"所观察到的现象在多大程度上偏离了零假设所描述的状态"。一个完整的科学报告应同时呈现两者:效应量提供效应大小的点估计,置信区间量化估计的不确定性(例如 d=0.45d = 0.4595% CI:[0.28,0.62]95\%\ \text{CI}: [0.28, 0.62]),假设检验则补充抽样变异性的形式化评估。

二者的互补性在以下情境中表现得尤为突出。当样本量极大时,p 值可能极小而效应量仍微不足道——此时仅凭 p < 0.001 作出"重要发现"的判断是误导性的。相反,当样本量极为有限时,即使效应量可观(如 d=0.70d = 0.70),p 值也可能超过 0.05 的常规阈值——此时仅凭"不显著"便否定效应存在,则犯了将缺乏证据等同于证据缺乏的逻辑谬误。

效应量在元分析中的枢纽作用

元分析 (Meta-Analysis) 将效应量作为跨研究汇总的基本分析单位。研究者首先将不同文献中报告的统计量转换为共同效应量尺度(如将所有结果统一为 Cohen's d 或相关系数 rr),随后通过固定效应模型随机效应模型进行加权平均。权重的选取通常基于样本量或方差的倒数——精度越高的研究权重越大。

效应量的异质性 (heterogeneity) 评估是元分析的核心环节。常用指标包括 Cochran's Q 检验(检验各研究效应量是否来自同一总体)、I2I^2 统计量(描述由真实异质性而非抽样误差所致的变异比例)以及 τ2\tau^2(研究间真实效应的方差)。当异质性显著时(如 I2>50%I^2 > 50\%),简单合并效应量可能产生误导,研究者需进一步探索调节变量——即哪些研究特征(样本群体、测量工具、干预强度等)可以解释效应量在不同研究间的系统性差异。这一过程通常借助亚组分析元回归 (Meta-Regression) 实现。

在功效分析与研究设计中的应用

效应量在先验功效分析 (A Priori Power Analysis) 中扮演关键角色。研究者需根据以下参数确定所需最小样本量:预期效应量 ff(或 dd)、期望达到的统计功效 1β1 - \beta(通常设为 0.80)、显著性水平 α\alpha(通常设为 0.05)以及研究设计的自由度参数(如 ANOVA 的组数或回归的预测变量个数)。若预期效应量很小(如 d=0.10d = 0.10),则需极大规模样本才能以足够功效捕捉该效应;反之若预期效应量较大,相对较小的样本即可达到同等功效。

预期效应量的合理设定有赖于对领域文献的充分掌握:可从已发表的元分析中获取该领域的典型效应量分布,或以试点研究、理论推导为依据。需特别警惕的是,不得在数据收集完毕后以观察到的效应量进行"事后功效分析" (post-hoc power analysis)——这种操作在方法论上是不成立的循环推理,已被学界广泛批评。

报告规范与解读注意事项

近年来,"p 值崇拜"引发的复制危机促使学界深刻反思统计报告标准。美国心理学会 (APA) 早在 1999 年便要求研究报告必须包含效应量指标,美国经济学会 (AEA) 旗下期刊亦明确鼓励在实证论文中报告效应量及其置信区间。中国经济学和管理学界的规范性也在逐步提升。

在解读效应量时需注意以下要点。第一,Cohen 的"小—中—大"基准是领域依赖的经验法则,而非普适标准:在劳动经济学中,教育干预的效应量 d0.10d \approx 0.10 即可能具有重要的政策含义;而在严格控制的实验室条件下,d=0.50d = 0.50 或被视为寻常。第二,效应量的大小不直接等同于实践重要性——一个统计上中等效应的药物可能仅将治愈率从 40\% 提升至 50\%,其临床价值取决于疾病的性质与替代疗法的可得性。第三,应同时报告效应量的置信区间,因为点估计本身不传达精度信息:宽置信区间提示估计的高度不确定性,通常源于小样本或高变异性数据。

最后,在研究规划阶段即应明确效应量指标及其预期阈值,而非在数据分析后再进行选择性报告。前瞻性注册、预注册 (pre-registration) 与注册报告 (registered report) 等开放科学实践正在推动效应量从"可选的锦上添花"上升为"研究设计的核心参数"。效应量不仅是沟通统计结果与实质意义之间的概念桥梁,更是推动科学从"显著性过滤"走向"证据积累"的方法论引擎。