ARTICLE

科恩的d

科恩的d (Cohen's d) 科恩的d（Cohen's d）是由美国心理学家、统计学家Jacob Cohen（1923--1998）在其奠基性著作《Statistical Power Analysis for the Behavioral Sciences》（1969, 修订版 1988）中系统建立的一个标准化效应量指标。作为效应量家族中最具影响力的成员

浏览 3 更新 2026-07-20

科恩的d (Cohen's d)

科恩的d（Cohen's d）是由美国心理学家、统计学家Jacob Cohen（1923--1998）在其奠基性著作《Statistical Power Analysis for the Behavioral Sciences》（1969, 修订版 1988）中系统建立的一个标准化效应量指标。作为效应量家族中最具影响力的成员，科恩的d将两组均值之间的原始差异除以合并标准差，从而将差异表达为"多少个标准差"这一无量纲数值，使来自不同测量工具、不同研究设计的效应能够直接进行比较与汇总。

在当今的实证研究规范中，科恩的d已从一个边缘性的辅助统计量上升为与 $p$ 值并列的核心报告指标。美国心理学会（APA）、美国教育研究协会（AERA）以及众多医学期刊的出版指南均明确要求研究报告同时呈现假设检验的统计显著性和效应量，其中科恩的d是出现频率最高的效应量指标。这一趋势背后的方法论逻辑在于： $p$ 值本质上混淆了效应大小与样本量信息，而科恩的d直接度量效应的实质规模，二者相辅相成，缺一不可。

定义与基本计算

设有两个独立样本，组1的样本量为 $n_1$ 、均值为 $\bar{X}_1$ 、方差为 $s_1^2$ ，组2的样本量为 $n_2$ 、均值为 $\bar{X}_2$ 、方差为 $s_2^2$ 。科恩的d的标准定义为：

d = \frac{\bar{X}_1 - \bar{X}_2}{s_p}, \quad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}

其中 $s_p$ 为合并标准差（Pooled Standard Deviation），其分母 $n_1 + n_2 - 2$ 恰好是两独立样本 $t$ 检验的自由度。这一公式内含方差齐性（Homoscedasticity）假设，即两组来自具有相同总体方差的正态分布。当该假设不成立时，研究者可转向Welch校正的标准化方法或采用Glass's $\Delta$ ，后者仅以对照组的标准差作为标准化分母。

科恩的d与独立样本 $t$ 统计量之间存在简洁的代数转换关系：

d = t \cdot \sqrt{\frac{n_1 + n_2}{n_1 n_2}}

这一关系具有深远的教学与研究含义：等式表明，在固定效应量 $d$ 下， $t$ 值（以及随后的 $p$ 值）仅随样本量的平方根增长。换言之，在足够大的样本中，即使 $d = 0.01$ 的微小差异也会在统计上显著，而小样本中 $d = 0.80$ 的大效应也可能未能通过显著性检验。这一观察构成了效应量与统计显著性必须联合汇报的最有力论据。

小、中、大的经验基准

科恩（1988）提出的三档经验阈值至今仍是跨学科引用最广泛的效应量解释框架：

小效应（ $|d| \approx 0.20$ ）：两组正态分布的概率密度约有85\%重叠，均值差异约为五分之一个标准差。这类效应在行为科学和政策评估中极为常见，在助推（Nudge）干预、教育准实验等场景中， $d = 0.15\sim0.25$ 常被视为具有累积价值的实践效应。
中等效应（ $|d| \approx 0.50$ ）：分布重叠约67\%，差异肉眼可辨，通常代表具有明确学科意义的干预效果。例如，在元分析综述中，教育干预的总体平均效应量约在 $d = 0.40\sim0.60$ 区间。
大效应（ $|d| \approx 0.80$ ）：分布重叠约53\%，接近一个完整标准差的差异，通常构成强有力的实践证据。例如，性别身高差异在成年人群中约 $d \approx 1.7$ ，远超大效应阈值。

科恩本人在多部著作中反复警示，这些阈值仅为"操作性的经验法则"，不应被机械地用作效应是否存在或重要与否的绝对分界线。一个更稳健的做法是将科恩的d置于特定研究领域的元分析分布中进行校准——即将当前研究的 $d$ 值与以往同类研究的效应量分布相比较，以此判断其相对大小。

校正变体：Hedges' g与单样本情形

当总样本量较小时（如各组 $n < 20$ ），科恩的d存在轻微的正向偏误（高估总体效应量）。Hedges' g通过引入校正因子给出近似无偏估计：

g = d \cdot J(df), \quad J(df) = 1 - \frac{3}{4(n_1 + n_2 - 2) - 1}

随着自由度增大， $J(df) \to 1$ ，g与d渐近等价。在元分析实践中，Hedges' g因具备更优的小样本统计性质而被广泛推荐。

对于单样本或配对设计，科恩的d可适配为差值形式： $d_z = (\bar{X} - \mu_0) / s$ （单样本与已知常数比较）或 $d_z = \bar{D} / s_D$ （配对设计中以差值标准差为分母）。这些变体在事件研究（Event Study）和纵向数据分析中具有重要应用。

置信区间与推断

效应量的点估计若不同时汇报置信区间，其信息价值将大打折扣。科恩的d的渐近标准误为：

SE_d \approx \sqrt{\frac{n_1 + n_2}{n_1 n_2} + \frac{d^2}{2(n_1 + n_2)}}

基于正态近似的95\%置信区间为 $d \pm 1.96 \cdot SE_d$ 。更精确的方法利用非中心 $t$ 分布迭代求解——给定观测 $t$ 值及其自由度，找出非中心参数 $\lambda$ 的置信限，再通过 $\lambda = d \sqrt{n_1 n_2 / (n_1 + n_2)}$ 反解 $d$ 的置信区间。该方法在小样本下覆盖概率优于正态近似，是元分析软件（如CMA、metafor等R包）的默认算法。

局限性与应用警示

科恩的d尽管通用性极强，但研究者必须意识到以下核心局限。其一，标准公式对正态性和方差齐性假设敏感：当数据严重偏态或存在异常值时，均值和标准差作为位置与尺度参数的效率急剧下降。此时应考虑基于中位数或秩次的稳健效应量。其二， $d = 0.80$ 本身不区分因果效应与混杂偏倚——一个来自严格随机对照试验（RCT）的 $d = 0.5$ 和一个来自观察性研究的 $d = 0.8$ 在可信度上不可同日而语。效应量的解读必须嵌入研究设计和偏倚风险的整体评估框架。其三，统计学效应量与决策相关性之间没有自动换算公式：一个成本极低、覆盖人群极广的小效应（如 $d = 0.10$ 的默认选项干预）的政策价值可能远超一个成本高昂的大效应（如 $d = 0.80$ 的个性化辅导项目）。因此，科恩的d应被视为辅助判断而非替代判断的标准化度量工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。