ARTICLE
效应量
效应量 (Effect Size) 效应量 (Effect Size) 是统计学中衡量某一现象强度或变量间关系强度的标准化定量指标。与显著性检验(如p值)只回答"效应是否存在"不同,效应量回答"效应有多大",因此它是衡量研究结果实际显著性 (practical significance) 的核心工具。在假设检验中,统计显著的结果(如 p < 0.05)仅意味
效应量 (Effect Size)
效应量 (Effect Size) 是统计学中衡量某一现象强度或变量间关系强度的标准化定量指标。与显著性检验(如p值)只回答"效应是否存在"不同,效应量回答"效应有多大",因此它是衡量研究结果实际显著性 (practical significance) 的核心工具。在假设检验中,统计显著的结果(如 )仅意味着观察到的效应不太可能由随机机会造成,但一个统计上显著的效应可能在现实中微乎其微。效应量弥补了这一信息鸿沟,提供不受样本量影响的效应幅度直接度量,是区分统计显著性与实际显著性的关键概念。
统计显著性 vs. 实际显著性
理解效应量的关键在于区分统计显著性与实际显著性。统计显著性主要受效应大小和样本量影响——极大的样本量可使一个极其微小的效应变得"统计上显著"。实际显著性关注效应的量级是否足够大以至于在现实世界中值得关注。
考虑一个经典例子:一项百万人参与的研发现某种补充剂能将IQ提高0.1分,p值远小于0.001。从统计显著性来看,结果高度显著,效应真实存在;但从实际显著性来看,0.1分的IQ提升微乎其微,毫无实际价值。这里的效应量(Cohen's d接近0)揭示了该结果的实际意义有限。因此,报告效应量使得研究结果的解释更加完整和有意义,也是元分析的基石。
主要类型
效应量可根据其衡量对象分为三大族系:
d族:标准化均值差异。用于比较两组平均数。Cohen's d 是最常用的指标:,表示两组均值相差多少个标准差,其中合并标准差 。Cohen 给出的经验基准为 (小)、(中)、(大)。当样本量较小(如 )时,Cohen's d 存在向上偏差,此时Hedges' g 通过校正因子 提供更无偏的总体估计,大样本下两者趋同。Glass's Δ 则使用控制组标准差作为标准化分母,适用于实验设计中有明确控制组且干预可能影响实验组方差的情形。此外,Cohen's f 适用于方差分析框架,衡量多组设计中的整体效应:,基准为 0.10(小)、0.25(中)、0.40(大)。
r族:关联强度。用于衡量两个连续变量之间的相关性。皮尔逊相关系数 本身即为效应量指标,取值介于 与 之间—— 表示无线性关系,正负号表示方向,绝对值越接近 1 关系越强。Cohen 基准为 (小)、(中)、(大)。决定系数 (即 )表示一个变量的变异中有多少百分比可由另一变量解释——例如身高与体重的 意味着 ,即体重变异的 36\% 可由身高解释。 是线性回归模型中衡量模型整体解释力的核心指标,而Cohen's 则专用于回归中局部效应的度量:,基准为 0.02(小)、0.15(中)、0.35(大)。
分类数据族。当数据为分类数据(如成功/失败、患病/健康)时,基于比率的效应量更为适用。比值比 (Odds Ratio, OR) 常用于逻辑回归和流行病学,比较事件在两组中的比值()之比:OR = 1 表示无关联,OR > 1 为风险因素,OR < 1 为保护因素。风险比 (Risk Ratio, RR) 直接比较两组事件发生的概率:,RR = 1 表示风险相同,RR > 1.5 通常被视为较强效应,表示风险增加 50\% 以上。对于 列联表,Cramér's V 从卡方统计量中导出关联强度,取值介于 0 到 1 之间。
应用场景
效应量在科学研究中有两大核心应用。在元分析中,效应量是跨研究比较的"通用货币"——研究者将来自不同独立研究的效应量(如 Cohen's d 或 OR)进行统计合并,从而得出关于某效应总体大小的更精确估计。异质性评估(如 统计量)衡量各研究效应量是否来自同一总体,当异质性显著时需通过亚组分析或元回归探索效应量差异的来源。
在效力分析中,研究者需在研究设计阶段进行先验功效分析 (a priori power analysis) 来确定所需样本量,该计算需要预期效应量、统计效力(通常设为 0.80)和显著性水平(通常为 0.05)等参数。若预期效应量很小(如 ),则需要极大规模样本才能以足够功效捕捉该效应;反之若预期效应量较大,较小样本即可达到同等功效。预估合理的效应量是进行功效分析的关键步骤,直接影响研究能否以足够精度检测到目标效应。
报告与解读注意事项
效应量的解读高度依赖研究情境。Cohen 的"小—中—大"基准仅为跨学科的粗略经验法则,而非普适标准——在医学中一个能降低死亡率的"小"效应可能极具临床价值,而在严格受控的实验室条件下"大"效应可能只是人为产物。效应量的大小是否重要,最终取决于具体研究领域和问题背景。例如,在劳动经济学中教育干预的效应量 即可能具有重要的政策含义,而在严格控制的实验室实验中 或被视为寻常。
当前主流学术标准(如APA)要求或强烈建议在报告研究结果时,除p值外还必须报告效应量及其置信区间。置信区间展示了点估计的不确定性范围——宽区间提示估计的高度不确定性,通常源于小样本或高变异性数据。同时报告效应量和置信区间,才能为研究结论的实质重要性提供完整的推断信息。最后,研究者应在研究规划阶段即明确效应量指标及其预期阈值,而非在数据分析后再进行选择性报告,这是推动科学研究从"显著性过滤"走向"证据积累"的重要方法论原则。