ARTICLE

科恩d值

科恩d值 (Cohen's d) 科恩d值(Cohen's d)是效应量(Effect Size)中最经典、最广泛使用的标准化均值差异度量,由美国统计学家雅各布·科恩(Jacob Cohen)于1969年在其著作《Statistical Power Analysis for the Behavioral Sciences》中系统提出。科恩d值衡量的是两个独立

浏览 4 更新 2026-07-19

科恩d值 (Cohen's d)

科恩d值(Cohen's d)是效应量(Effect Size)中最经典、最广泛使用的标准化均值差异度量,由美国统计学家雅各布·科恩(Jacob Cohen)于1969年在其著作《Statistical Power Analysis for the Behavioral Sciences》中系统提出。科恩d值衡量的是两个独立组均值之间的差异,以合并标准差(Pooled Standard Deviation)为尺度进行标准化,从而消除原始测量单位的影响,使不同研究、不同量表的效应可以直接比较。其核心思想简洁而强大:将组间差异表达为标准差的倍数,回答"两组相差多少个标准差"这一直观问题。

科恩d值在心理学教育学医学经济学以及近年来的数据科学中均扮演着不可或缺的角色。与假设检验中的pp值不同,科恩d值不受样本量的系统性影响,因此在元分析(Meta-Analysis)和统计功效分析(Power Analysis)中具有根本性的方法论价值。美国心理学会(APA)在其出版指南中明确要求研究报告同时汇报pp值和效应量,科恩d值是最常被采用的效应量指标。

定义与数学公式

科恩d值的基本形式为两个独立样本均值之差除以合并标准差:

d=Xˉ1Xˉ2spd = \frac{\bar{X}_1 - \bar{X}_2}{s_p}

其中,Xˉ1\bar{X}_1Xˉ2\bar{X}_2 分别为两组的样本均值,sps_p 为合并标准差。合并标准差由两组样本方差加权平均后开方得到:

sp=(n11)s12+(n21)s22n1+n22s_p = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}}

式中,n1n_1n2n_2 为两组样本量,s12s_1^2s22s_2^2 为两组的样本方差。合并标准差分母 n1+n22n_1 + n_2 - 2 为两样本tt检验的自由度。该公式假设两组总体方差相等(方差齐性,Homoscedasticity),在此假设下sps_p 是总体标准差的无偏估计

单样本情境中(比较样本均值与已知常数的差异),科恩d值简化为:

d=Xˉμ0sd = \frac{\bar{X} - \mu_0}{s}

其中μ0\mu_0 为假设的总体均值,ss 为样本标准差。

科恩d值与独立样本t检验存在直接的代数关系:

d=tn1+n2n1n2d = t \sqrt{\frac{n_1 + n_2}{n_1 n_2}}

这一关系清楚地揭示了效应量与统计显著性之间的区别:在固定的科恩d值下,tt统计量(以及pp值)随样本量的增大而增大。一个微不足道的效应(如d=0.05d = 0.05)在超大样本中也能产生统计显著的结果,这正是强调汇报效应量的根本原因。

解释标准与经验基准

科恩(1988)提出了最具影响力的d值解释经验基准,至今仍是各学科的默认参考:

  • 小效应(Small Effect):d=0.20|d| = 0.20,两组分布重叠约85\%,均值差异约为0.2个标准差;
  • 中等效应(Medium Effect):d=0.50|d| = 0.50,两组分布重叠约67\%,均值差异约为0.5个标准差,肉眼可见但需要一定样本才能稳定检出;
  • 大效应(Large Effect):d=0.80|d| = 0.80,两组分布重叠约53\%,均值差异接近一个完整标准差,通常是实质性且实践意义重大的差异。

科恩本人反复强调这些阈值的任意性和领域依赖性,呼吁研究者根据具体学科背景和前人文献进行校准。例如,在教育干预研究中,d=0.20d = 0.20可能已具有重要的政策含义(尤其是低成本、可规模化推广的干预);在药物临床试验中,dd值常需达到0.50以上才被认为具有临床意义;而在劳动经济学工资差异分析中,未经控制的组间差异可能轻易超过d=1.0d = 1.0,此时"大"效应的阈值须重新定义。

将科恩d值转换为重叠系数(Overlap Coefficient, OVL)或概率优势(Probability of Superiority, PS)有助于更直观的理解。概率优势——即从第一组随机抽取一个观测值大于第二组随机抽取观测值的概率——在两组服从等方差正态分布时可直接由dd计算:

PS=Φ(d2)\text{PS} = \Phi\left(\frac{d}{\sqrt{2}}\right)

其中Φ()\Phi(\cdot)为标准正态累积分布函数。当d=0.20d = 0.20时,PS ≈ 0.556(约56\%的概率第一组大于第二组);当d=0.80d = 0.80时,PS ≈ 0.714。这一转化将抽象的标准化差异表达为更贴近决策直觉的概率语言。

相关变体与校正

科恩d值家族包含多个密切相关的变体,分别适用于不同的研究设计和假设条件。

Hedges' gHedges' g是科恩d值的有限样本校正版本,由Larry Hedges于1981年提出。其计算方式与科恩d值相同,但乘以一个校正因子:

g=dJ(df)=d(134df1)g = d \cdot J(df) = d \cdot \left(1 - \frac{3}{4df - 1}\right)

其中df=n1+n22df = n_1 + n_2 - 2。当样本量较小时(各组n<20n < 20),科恩d值轻微高估总体效应量(向上偏误),Hedges' g通过校正因子消除该偏误。当样本量增大时,J(df)1J(df) \to 1,g与d趋于一致。在元分析中,Hedges' g通常优于科恩d值,因为其具有更好的小样本性质。

Glass's Δ\Delta。当两组总体方差不等(违反方差齐性假设)时,合并标准差可能产生误导。Glass's Δ\Delta(Glass, 1976)使用对照组的标准差而非合并标准差进行标准化:

Δ=Xˉ1Xˉ2scontrol\Delta = \frac{\bar{X}_1 - \bar{X}_2}{s_{\text{control}}}

这一选择在实验设计中具有清晰的逻辑:对照组(未受处理组)的标准差反映了总体的自然变异,而实验组的方差可能已被处理本身改变,此时使用对照组标准差作为标准化尺度更为合理。

其他变体。对于配对设计(Paired Design),科恩提出了dzd_z,以差值的标准差而非合并标准差为分母,适用于重复测量匹配样本。对于方差分析(ANOVA)设计,科恩f值(Cohen's f)将d值的逻辑推广到多组比较,其中f=0.10f = 0.10f=0.25f = 0.25f=0.40f = 0.40分别对应小、中、大效应。

置信区间与推断

仅汇报科恩d值的点估计而不提供其不确定性度量是不充分的。科恩d值的置信区间可以通过非中心tt分布(Non-Central t Distribution)方法或基于正态近似的Bootstrap方法计算。d值的标准误在大样本下的近似公式为:

SEdn1+n2n1n2+d22(n1+n2)SE_d \approx \sqrt{\frac{n_1 + n_2}{n_1 n_2} + \frac{d^2}{2(n_1 + n_2)}}

95\%置信区间近似为 d±1.96×SEdd \pm 1.96 \times SE_d。当置信区间跨越零时,无法排除总体效应为零的可能性;置信区间的宽度直接反映了效应估计的精度,是元分析中森林图(Forest Plot)呈现的核心信息。

基于非中心tt分布的精确方法利用了科恩d值与tt统计量的关系,通过迭代求解非中心参数λ=dn1n2/(n1+n2)\lambda = d \sqrt{n_1 n_2 / (n_1 + n_2)}的置信区间,再反求dd的置信限。该方法在小样本下优于正态近似。

在经济学与社会科学中的应用

科恩d值在经济学和社会科学中的应用日益广泛。在发展经济学随机对照试验(RCT)中,研究者使用科恩d值来比较不同干预措施的相对效应大小——例如,比较提供教科书(可能d0.10d \approx 0.10)与提供现金转移支付(可能d0.30d \approx 0.30)对学生成绩影响的标准化差异。在劳动经济学中,性别工资差距种族歧视等研究的效应量常以科恩d值报告,使得不同国家、不同时期、不同行业之间的研究结果可以定量比较。

行为经济学行为公共政策领域,Nudge(助推)干预的效应量通常较小(d=0.100.30d = 0.10 \sim 0.30),但鉴于其极低的实施成本和广泛的目标人群,这些小效应仍然可能具有巨大的总体福利影响。科恩d值为此类"微小但可累积"的效应提供了标准化的度量语言。

金融经济学中,科恩d值被用于度量投资组合表现差异、市场异象(Anomalies)的经济显著性以及事件研究(Event Study)中异常收益的标准化幅度。与金融学中惯用的夏普比率不同,科恩d值聚焦于组间比较而非风险调整后的绝对表现,因此在横截面资产定价研究中更具适用性。

局限性与注意事项

科恩d值尽管使用广泛,但存在若干不可忽视的局限性。

对分布假设的敏感性。科恩d值的标准公式和解释基准(小、中、大)建立在两组总体均服从正态分布且方差相等的假设之上。当数据严重偏态或存在异常值时,均值和标准差作为位置和尺度参数的效率大幅下降,科恩d值可能严重失真。此时,基于秩次的非参数效应量(如Cliff's δ\delta)或基于中位数和中位数绝对离差的稳健效应量更为可靠。

方差不等时的困境。当两组方差悬殊时(如实验组和对照组的变异程度根本不同),合并标准差的定义本身就存在争议——它混淆了组间差异和组内变异的异质性。Glass's Δ\Delta 部分解决了这一问题,但要求研究者有明确的理由选择哪一组作为标准化基准。

阈值滥用与机械解读。科恩的0.20/0.50/0.80阈值在科研实践中常被不加反思地机械套用,成为一种新的"显著性门槛"。科恩本人晚年对这一趋势表达了不满。合理的做法是结合具体研究领域的前人效应量分布(如通过元分析建立学科特定的效应量基准),而非一刀切地宣称"d = 0.49为中等以下、d = 0.51为中等以上"。

与研究设计混淆。科恩d值衡量的是标准化均值差异,但不能区分该差异来自真正的因果效应还是混杂偏差。一个d=0.80d = 0.80的观察性研究效应和一个d=0.80d = 0.80的随机对照试验效应具有完全不同的可信度,但科恩d值本身无法编码研究设计质量。因此,效应量必须与研究设计偏倚风险评估证据等级联合解读,而不能孤立使用。

与决策相关性的距离。统计学效应量(如科恩d值)与成本效益分析中的实践重要性之间不存在自动转化。一个统计上大效应(d=0.80d = 0.80)但实施成本极高的干预,其政策优先级可能低于统计上小效应(d=0.15d = 0.15)但几乎零成本的自动提醒短信。科恩d值提供了效应大小的标准化度量,但效应"是否足够大、是否值得采取行动"是实质性的价值判断,需要纳入成本、受益范围、分布影响和政治可行性等多维考量。