ARTICLE
Effect Size
效应量 (Effect Size) 效应量 (Effect Size) 是统计学与计量经济学中衡量某种现象、干预或关系强度的标准化定量指标。与统计显著性回答"效应是否存在"不同,效应量回答"效应有多大"——这一区分对科学研究具有根本重要性。在零假设显著性检验 (NHST) 的经典框架下,p值对样本量高度敏感:当样本量趋向无穷时,任何微小的、实质上无意义的差异
效应量 (Effect Size)
效应量 (Effect Size) 是统计学与计量经济学中衡量某种现象、干预或关系强度的标准化定量指标。与统计显著性回答"效应是否存在"不同,效应量回答"效应有多大"——这一区分对科学研究具有根本重要性。在零假设显著性检验 (NHST) 的经典框架下,p值对样本量高度敏感:当样本量趋向无穷时,任何微小的、实质上无意义的差异都将在统计上显著;反之,小样本下即使存在重要效应也可能因检验力不足而无法被检测。效应量正是为突破这一困境而生的概念工具,为不同研究之间提供不受样本量左右的、可比较的效应度量尺度。
效应量的主要分类
效应量并无唯一度量,其选择取决于研究设计、数据类型和分析目标。大致可分为三大族系:
均值差异族 (d-family)。最经典的当属Cohen's d,定义为两组均值之差除以合并标准差:。该指标将原始测量尺度的差异转化为标准差单位,使得用不同工具测量的研究结果可以横向比较。Cohen (1988) 提出经验基准: 为小效应, 为中等效应, 为大效应。其变体 Hedges' g 在小样本下施加无偏修正:。对于两组以上设计,Cohen's f 适用于方差分析框架:,其中 为组间平方和与总平方和之比。Cohen 给出的对应基准为 (小)、(中)、(大)。在两组建模的特殊情况下,。
关联强度族 (r-family)。皮尔逊相关系数 本身即为效应量:、、 分别对应小、中、大效应阈值。在分类数据分析中,优势比 (Odds Ratio, OR) 和风险比 (Risk Ratio, RR) 度量二值变量间的关联强度——OR = 1 表示无关联,越偏离 1 效应越强。对于 列联表,Cramér's V 从卡方统计量中导出关联强度:,介于 0 到 1 之间。
方差解释族。在回归与方差分析中,决定系数 和eta-squared () 度量模型或因子所解释的结果变异比例,天然具有效应量的解释功能。但由于 和 在总体中的正向偏误,adjusted 与omega-squared () 提供了经自由度修正的无偏替代。Cohen's 则专用于回归中局部效应的度量:,其基准为 (小)、(中)、(大)。
效应量与统计显著性的互补逻辑
效应量与 p 值并非非此即彼的对立选项,而是提供互补信息的两种推断工具。统计显著性(p 值)回答了"在零假设为真的前提下,观察到当前或更极端数据的概率",而效应量回答"所观察到的现象在多大程度上偏离了零假设所描述的状态"。一个完整的科学报告应同时呈现两者:效应量提供效应大小的点估计,置信区间量化估计的不确定性(例如 ,),假设检验则补充抽样变异性的形式化评估。
二者的互补性在以下情境中表现得尤为突出。当样本量极大时,p 值可能极小而效应量仍微不足道——此时仅凭 p < 0.001 作出"重要发现"的判断是误导性的。相反,当样本量极为有限时,即使效应量可观(如 ),p 值也可能超过 0.05 的常规阈值——此时仅凭"不显著"便否定效应存在,则犯了将缺乏证据等同于证据缺乏的逻辑谬误。
效应量在元分析中的枢纽作用
元分析 (Meta-Analysis) 将效应量作为跨研究汇总的基本分析单位。研究者首先将不同文献中报告的统计量转换为共同效应量尺度(如将所有结果统一为 Cohen's d 或相关系数 ),随后通过固定效应模型或随机效应模型进行加权平均。权重的选取通常基于样本量或方差的倒数——精度越高的研究权重越大。
效应量的异质性 (heterogeneity) 评估是元分析的核心环节。常用指标包括 Cochran's Q 检验(检验各研究效应量是否来自同一总体)、 统计量(描述由真实异质性而非抽样误差所致的变异比例)以及 (研究间真实效应的方差)。当异质性显著时(如 ),简单合并效应量可能产生误导,研究者需进一步探索调节变量——即哪些研究特征(样本群体、测量工具、干预强度等)可以解释效应量在不同研究间的系统性差异。这一过程通常借助亚组分析或元回归 (Meta-Regression) 实现。
在功效分析与研究设计中的应用
效应量在先验功效分析 (A Priori Power Analysis) 中扮演关键角色。研究者需根据以下参数确定所需最小样本量:预期效应量 (或 )、期望达到的统计功效 (通常设为 0.80)、显著性水平 (通常设为 0.05)以及研究设计的自由度参数(如 ANOVA 的组数或回归的预测变量个数)。若预期效应量很小(如 ),则需极大规模样本才能以足够功效捕捉该效应;反之若预期效应量较大,相对较小的样本即可达到同等功效。
预期效应量的合理设定有赖于对领域文献的充分掌握:可从已发表的元分析中获取该领域的典型效应量分布,或以试点研究、理论推导为依据。需特别警惕的是,不得在数据收集完毕后以观察到的效应量进行"事后功效分析" (post-hoc power analysis)——这种操作在方法论上是不成立的循环推理,已被学界广泛批评。
报告规范与解读注意事项
近年来,"p 值崇拜"引发的复制危机促使学界深刻反思统计报告标准。美国心理学会 (APA) 早在 1999 年便要求研究报告必须包含效应量指标,美国经济学会 (AEA) 旗下期刊亦明确鼓励在实证论文中报告效应量及其置信区间。中国经济学和管理学界的规范性也在逐步提升。
在解读效应量时需注意以下要点。第一,Cohen 的"小—中—大"基准是领域依赖的经验法则,而非普适标准:在劳动经济学中,教育干预的效应量 即可能具有重要的政策含义;而在严格控制的实验室条件下, 或被视为寻常。第二,效应量的大小不直接等同于实践重要性——一个统计上中等效应的药物可能仅将治愈率从 40\% 提升至 50\%,其临床价值取决于疾病的性质与替代疗法的可得性。第三,应同时报告效应量的置信区间,因为点估计本身不传达精度信息:宽置信区间提示估计的高度不确定性,通常源于小样本或高变异性数据。
最后,在研究规划阶段即应明确效应量指标及其预期阈值,而非在数据分析后再进行选择性报告。前瞻性注册、预注册 (pre-registration) 与注册报告 (registered report) 等开放科学实践正在推动效应量从"可选的锦上添花"上升为"研究设计的核心参数"。效应量不仅是沟通统计结果与实质意义之间的概念桥梁,更是推动科学从"显著性过滤"走向"证据积累"的方法论引擎。