ARTICLE

Effect Size

效应量 (Effect Size) 效应量 (Effect Size) 是统计学与计量经济学中衡量某种现象、干预或关系强度的标准化定量指标。与统计显著性回答"效应是否存在"不同，效应量回答"效应有多大"——这一区分对科学研究具有根本重要性。在零假设显著性检验 (NHST) 的经典框架下，p值对样本量高度敏感：当样本量趋向无穷时，任何微小的、实质上无意义的差异

浏览 0 更新 2026-07-18

效应量 (Effect Size)

效应量 (Effect Size) 是统计学与计量经济学中衡量某种现象、干预或关系强度的标准化定量指标。与统计显著性回答"效应是否存在"不同，效应量回答"效应有多大"——这一区分对科学研究具有根本重要性。在零假设显著性检验 (NHST) 的经典框架下，p值对样本量高度敏感：当样本量趋向无穷时，任何微小的、实质上无意义的差异都将在统计上显著；反之，小样本下即使存在重要效应也可能因检验力不足而无法被检测。效应量正是为突破这一困境而生的概念工具，为不同研究之间提供不受样本量左右的、可比较的效应度量尺度。

效应量的主要分类

效应量并无唯一度量，其选择取决于研究设计、数据类型和分析目标。大致可分为三大族系：

均值差异族 (d-family)。最经典的当属Cohen's d，定义为两组均值之差除以合并标准差： $d = (\bar{X}_1 - \bar{X}_2)/s_p$ 。该指标将原始测量尺度的差异转化为标准差单位，使得用不同工具测量的研究结果可以横向比较。Cohen (1988) 提出经验基准： $|d| = 0.20$ 为小效应， $0.50$ 为中等效应， $0.80$ 为大效应。其变体 Hedges' g 在小样本下施加无偏修正： $g = d \cdot [1 - 3/(4n_1 + 4n_2 - 9)]$ 。对于两组以上设计，Cohen's f 适用于方差分析框架： $f = \sqrt{\eta^2/(1-\eta^2)}$ ，其中 $\eta^2$ 为组间平方和与总平方和之比。Cohen 给出的对应基准为 $f = 0.10$ （小）、 $0.25$ （中）、 $0.40$ （大）。在两组建模的特殊情况下， $f = d/2$ 。

关联强度族 (r-family)。皮尔逊相关系数 $r$ 本身即为效应量： $|r| = 0.10$ 、 $0.30$ 、 $0.50$ 分别对应小、中、大效应阈值。在分类数据分析中，优势比 (Odds Ratio, OR) 和风险比 (Risk Ratio, RR) 度量二值变量间的关联强度——OR = 1 表示无关联，越偏离 1 效应越强。对于 $2 \times 2$ 列联表，Cramér's V 从卡方统计量中导出关联强度： $V = \sqrt{\chi^2/(n \cdot \min(r-1, c-1))}$ ，介于 0 到 1 之间。

方差解释族。在回归与方差分析中，决定系数 $R^2$ 和eta-squared ( $\eta^2$ ) 度量模型或因子所解释的结果变异比例，天然具有效应量的解释功能。但由于 $R^2$ 和 $\eta^2$ 在总体中的正向偏误，adjusted $R^2$ 与omega-squared ( $\omega^2$ ) 提供了经自由度修正的无偏替代。Cohen's $f^2$ 则专用于回归中局部效应的度量： $f^2 = (R^2_{\text{full}} - R^2_{\text{reduced}})/(1-R^2_{\text{full}})$ ，其基准为 $f^2 = 0.02$ （小）、 $0.15$ （中）、 $0.35$ （大）。

效应量与统计显著性的互补逻辑

效应量与 p 值并非非此即彼的对立选项，而是提供互补信息的两种推断工具。统计显著性（p 值）回答了"在零假设为真的前提下，观察到当前或更极端数据的概率"，而效应量回答"所观察到的现象在多大程度上偏离了零假设所描述的状态"。一个完整的科学报告应同时呈现两者：效应量提供效应大小的点估计，置信区间量化估计的不确定性（例如 $d = 0.45$ ， $95\%\ \text{CI}: [0.28, 0.62]$ ），假设检验则补充抽样变异性的形式化评估。

二者的互补性在以下情境中表现得尤为突出。当样本量极大时，p 值可能极小而效应量仍微不足道——此时仅凭 p < 0.001 作出"重要发现"的判断是误导性的。相反，当样本量极为有限时，即使效应量可观（如 $d = 0.70$ ），p 值也可能超过 0.05 的常规阈值——此时仅凭"不显著"便否定效应存在，则犯了将缺乏证据等同于证据缺乏的逻辑谬误。

效应量在元分析中的枢纽作用

元分析 (Meta-Analysis) 将效应量作为跨研究汇总的基本分析单位。研究者首先将不同文献中报告的统计量转换为共同效应量尺度（如将所有结果统一为 Cohen's d 或相关系数 $r$ ），随后通过固定效应模型或随机效应模型进行加权平均。权重的选取通常基于样本量或方差的倒数——精度越高的研究权重越大。

效应量的异质性 (heterogeneity) 评估是元分析的核心环节。常用指标包括 Cochran's Q 检验（检验各研究效应量是否来自同一总体）、 $I^2$ 统计量（描述由真实异质性而非抽样误差所致的变异比例）以及 $\tau^2$ （研究间真实效应的方差）。当异质性显著时（如 $I^2 > 50\%$ ），简单合并效应量可能产生误导，研究者需进一步探索调节变量——即哪些研究特征（样本群体、测量工具、干预强度等）可以解释效应量在不同研究间的系统性差异。这一过程通常借助亚组分析或元回归 (Meta-Regression) 实现。

在功效分析与研究设计中的应用

效应量在先验功效分析 (A Priori Power Analysis) 中扮演关键角色。研究者需根据以下参数确定所需最小样本量：预期效应量 $f$ （或 $d$ ）、期望达到的统计功效 $1 - \beta$ （通常设为 0.80）、显著性水平 $\alpha$ （通常设为 0.05）以及研究设计的自由度参数（如 ANOVA 的组数或回归的预测变量个数）。若预期效应量很小（如 $d = 0.10$ ），则需极大规模样本才能以足够功效捕捉该效应；反之若预期效应量较大，相对较小的样本即可达到同等功效。

预期效应量的合理设定有赖于对领域文献的充分掌握：可从已发表的元分析中获取该领域的典型效应量分布，或以试点研究、理论推导为依据。需特别警惕的是，不得在数据收集完毕后以观察到的效应量进行"事后功效分析" (post-hoc power analysis)——这种操作在方法论上是不成立的循环推理，已被学界广泛批评。

报告规范与解读注意事项

近年来，"p 值崇拜"引发的复制危机促使学界深刻反思统计报告标准。美国心理学会 (APA) 早在 1999 年便要求研究报告必须包含效应量指标，美国经济学会 (AEA) 旗下期刊亦明确鼓励在实证论文中报告效应量及其置信区间。中国经济学和管理学界的规范性也在逐步提升。

在解读效应量时需注意以下要点。第一，Cohen 的"小—中—大"基准是领域依赖的经验法则，而非普适标准：在劳动经济学中，教育干预的效应量 $d \approx 0.10$ 即可能具有重要的政策含义；而在严格控制的实验室条件下， $d = 0.50$ 或被视为寻常。第二，效应量的大小不直接等同于实践重要性——一个统计上中等效应的药物可能仅将治愈率从 40\% 提升至 50\%，其临床价值取决于疾病的性质与替代疗法的可得性。第三，应同时报告效应量的置信区间，因为点估计本身不传达精度信息：宽置信区间提示估计的高度不确定性，通常源于小样本或高变异性数据。

最后，在研究规划阶段即应明确效应量指标及其预期阈值，而非在数据分析后再进行选择性报告。前瞻性注册、预注册 (pre-registration) 与注册报告 (registered report) 等开放科学实践正在推动效应量从"可选的锦上添花"上升为"研究设计的核心参数"。效应量不仅是沟通统计结果与实质意义之间的概念桥梁，更是推动科学从"显著性过滤"走向"证据积累"的方法论引擎。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。