ARTICLE

科恩的d

科恩的d (Cohen's d) 科恩的d(Cohen's d)是由美国心理学家、统计学家Jacob Cohen(1923--1998)在其奠基性著作《Statistical Power Analysis for the Behavioral Sciences》(1969, 修订版 1988)中系统建立的一个标准化效应量指标。作为效应量家族中最具影响力的成员

浏览 3 更新 2026-07-20

科恩的d (Cohen's d)

科恩的d(Cohen's d)是由美国心理学家、统计学家Jacob Cohen(1923--1998)在其奠基性著作《Statistical Power Analysis for the Behavioral Sciences》(1969, 修订版 1988)中系统建立的一个标准化效应量指标。作为效应量家族中最具影响力的成员,科恩的d将两组均值之间的原始差异除以合并标准差,从而将差异表达为"多少个标准差"这一无量纲数值,使来自不同测量工具、不同研究设计的效应能够直接进行比较与汇总。

在当今的实证研究规范中,科恩的d已从一个边缘性的辅助统计量上升为与pp值并列的核心报告指标。美国心理学会(APA)、美国教育研究协会(AERA)以及众多医学期刊的出版指南均明确要求研究报告同时呈现假设检验的统计显著性和效应量,其中科恩的d是出现频率最高的效应量指标。这一趋势背后的方法论逻辑在于:pp值本质上混淆了效应大小与样本量信息,而科恩的d直接度量效应的实质规模,二者相辅相成,缺一不可。

定义与基本计算

设有两个独立样本,组1的样本量为n1n_1、均值为Xˉ1\bar{X}_1、方差为s12s_1^2,组2的样本量为n2n_2、均值为Xˉ2\bar{X}_2、方差为s22s_2^2。科恩的d的标准定义为:

d=Xˉ1Xˉ2sp,sp=(n11)s12+(n21)s22n1+n22d = \frac{\bar{X}_1 - \bar{X}_2}{s_p}, \quad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}

其中sps_p为合并标准差(Pooled Standard Deviation),其分母n1+n22n_1 + n_2 - 2恰好是两独立样本tt检验的自由度。这一公式内含方差齐性(Homoscedasticity)假设,即两组来自具有相同总体方差的正态分布。当该假设不成立时,研究者可转向Welch校正的标准化方法或采用Glass's Δ\Delta,后者仅以对照组的标准差作为标准化分母。

科恩的d与独立样本tt统计量之间存在简洁的代数转换关系:

d=tn1+n2n1n2d = t \cdot \sqrt{\frac{n_1 + n_2}{n_1 n_2}}

这一关系具有深远的教学与研究含义:等式表明,在固定效应量dd下,tt值(以及随后的pp值)仅随样本量的平方根增长。换言之,在足够大的样本中,即使d=0.01d = 0.01的微小差异也会在统计上显著,而小样本中d=0.80d = 0.80的大效应也可能未能通过显著性检验。这一观察构成了效应量与统计显著性必须联合汇报的最有力论据。

小、中、大的经验基准

科恩(1988)提出的三档经验阈值至今仍是跨学科引用最广泛的效应量解释框架:

  • 小效应d0.20|d| \approx 0.20):两组正态分布的概率密度约有85\%重叠,均值差异约为五分之一个标准差。这类效应在行为科学和政策评估中极为常见,在助推(Nudge)干预、教育准实验等场景中,d=0.150.25d = 0.15\sim0.25常被视为具有累积价值的实践效应。
  • 中等效应d0.50|d| \approx 0.50):分布重叠约67\%,差异肉眼可辨,通常代表具有明确学科意义的干预效果。例如,在元分析综述中,教育干预的总体平均效应量约在d=0.400.60d = 0.40\sim0.60区间。
  • 大效应d0.80|d| \approx 0.80):分布重叠约53\%,接近一个完整标准差的差异,通常构成强有力的实践证据。例如,性别身高差异在成年人群中约d1.7d \approx 1.7,远超大效应阈值。

科恩本人在多部著作中反复警示,这些阈值仅为"操作性的经验法则",不应被机械地用作效应是否存在或重要与否的绝对分界线。一个更稳健的做法是将科恩的d置于特定研究领域的元分析分布中进行校准——即将当前研究的dd值与以往同类研究的效应量分布相比较,以此判断其相对大小。

校正变体:Hedges' g与单样本情形

当总样本量较小时(如各组n<20n < 20),科恩的d存在轻微的正向偏误(高估总体效应量)。Hedges' g通过引入校正因子给出近似无偏估计:

g=dJ(df),J(df)=134(n1+n22)1g = d \cdot J(df), \quad J(df) = 1 - \frac{3}{4(n_1 + n_2 - 2) - 1}

随着自由度增大,J(df)1J(df) \to 1,g与d渐近等价。在元分析实践中,Hedges' g因具备更优的小样本统计性质而被广泛推荐。

对于单样本或配对设计,科恩的d可适配为差值形式:dz=(Xˉμ0)/sd_z = (\bar{X} - \mu_0) / s(单样本与已知常数比较)或dz=Dˉ/sDd_z = \bar{D} / s_D(配对设计中以差值标准差为分母)。这些变体在事件研究(Event Study)和纵向数据分析中具有重要应用。

置信区间与推断

效应量的点估计若不同时汇报置信区间,其信息价值将大打折扣。科恩的d的渐近标准误为:

SEdn1+n2n1n2+d22(n1+n2)SE_d \approx \sqrt{\frac{n_1 + n_2}{n_1 n_2} + \frac{d^2}{2(n_1 + n_2)}}

基于正态近似的95\%置信区间为d±1.96SEdd \pm 1.96 \cdot SE_d。更精确的方法利用非中心tt分布迭代求解——给定观测tt值及其自由度,找出非中心参数λ\lambda的置信限,再通过λ=dn1n2/(n1+n2)\lambda = d \sqrt{n_1 n_2 / (n_1 + n_2)}反解dd的置信区间。该方法在小样本下覆盖概率优于正态近似,是元分析软件(如CMA、metafor等R包)的默认算法。

局限性与应用警示

科恩的d尽管通用性极强,但研究者必须意识到以下核心局限。其一,标准公式对正态性和方差齐性假设敏感:当数据严重偏态或存在异常值时,均值和标准差作为位置与尺度参数的效率急剧下降。此时应考虑基于中位数或秩次的稳健效应量。其二,d=0.80d = 0.80本身不区分因果效应与混杂偏倚——一个来自严格随机对照试验(RCT)的d=0.5d = 0.5和一个来自观察性研究的d=0.8d = 0.8在可信度上不可同日而语。效应量的解读必须嵌入研究设计偏倚风险的整体评估框架。其三,统计学效应量与决策相关性之间没有自动换算公式:一个成本极低、覆盖人群极广的小效应(如d=0.10d = 0.10的默认选项干预)的政策价值可能远超一个成本高昂的大效应(如d=0.80d = 0.80的个性化辅导项目)。因此,科恩的d应被视为辅助判断而非替代判断的标准化度量工具。