ARTICLE

Hedges' g

Hedges' g(赫奇斯g值) Hedges' g是效应量(effect size)的一种标准化度量,由统计学家Larry Hedges于1981年在其关于元分析方法论的经典论文中系统提出。该指标本质上是Cohen's d的小样本修正版本,旨在消除Cohen's d在样本量较小时表现出的向上偏误(overestimation),因此被广泛应用于元分析(me

浏览 0 更新 2025-11-08

Hedges' g(赫奇斯g值)

Hedges' g效应量(effect size)的一种标准化度量,由统计学家Larry Hedges于1981年在其关于元分析方法论的经典论文中系统提出。该指标本质上是Cohen's d的小样本修正版本,旨在消除Cohen's d在样本量较小时表现出的向上偏误(overestimation),因此被广泛应用于元分析(meta-analysis)、行为科学心理学教育学等领域的效应量综合估计。

偏误修正原理

Cohen's d定义为d=(Xˉ1Xˉ2)/spd = (\bar{X}_1 - \bar{X}_2)/s_p,其中sps_p合并标准差。在小样本条件下,d作为总体效应量δ\delta的估计量存在系统性向上偏误——即E(d)>δE(d) > \delta。这一偏误源于样本标准差对方差的估计在小样本中不够精确,导致标准化后的均值差异被高估。

Hedges' g通过引入一个与样本量相关的校正因子来消除该偏误:

g=d×(134(n1+n2)9)g = d \times \left(1 - \frac{3}{4(n_1+n_2)-9}\right)

其中n1n_1n2n_2分别为两组的样本量。对于总样本量N=n1+n2N = n_1 + n_2,该校正因子可近似写作13/(4N9)1 - 3/(4N-9)。当样本量增大时,该因子趋近于1,g趋近于d;当样本量较小时,该因子显著小于1,有效"拉回"被高估的效应量。

更精确的表达式利用Gamma函数给出:

g=d×Γ(ν2)ν2Γ(ν12)g = d \times \frac{\Gamma\left(\frac{\nu}{2}\right)}{\sqrt{\frac{\nu}{2}}\,\Gamma\left(\frac{\nu-1}{2}\right)}

其中ν=n1+n22\nu = n_1 + n_2 - 2自由度。在实际应用中,前述近似公式(由Hedges和Olkin 1985年推荐)已足够精确,且计算更为简便。

无偏性与方差估计

经修正后的g是总体效应量δ\delta的近似无偏估计量(approximately unbiased estimator),其期望满足E(g)δE(g) \approx \delta,偏误的量级为O(1/N)O(1/N)。相比之下,Cohen's d的偏误量级为O(1/(N1))O(1/(N-1)),在小样本下的向上偏误更为显著。

Hedges' g的方差(sampling variance)在独立样本设计下可近似表示为:

Var(g)1n1+1n2+g22(n1+n2)\text{Var}(g) \approx \frac{1}{n_1} + \frac{1}{n_2} + \frac{g^2}{2(n_1+n_2)}

该方差公式是元分析中进行固定效应模型随机效应模型加权合并时的基础。当各组效应量以其方差的倒数作为权重进行加权平均时,Hedges' g因其更准确的方差估计而在元分析综合中表现出优于原始Cohen's d的统计性质。

与Cohen's d的比较与选择

Cohen's d与Hedges' g的根本区别在于前者未进行小样本偏误修正。在实际选择中应遵循以下原则:

  • 大样本情境下(总样本量N>50N > 50或每组n>20n > 20):d与g的差异微乎其微(通常小于0.01),两者可互换使用。
  • 小样本情境下(总样本量N50N \leq 50):应优先报告Hedges' g以避免效应量被系统性高估。例如,当n1=n2=10n_1 = n_2 = 10时校正因子约为0.93——若d=0.80d = 0.80g0.74g \approx 0.74,差异不可忽略。
  • 元分析中:几乎无例外地使用Hedges' g作为标准效应量指标,因为元分析常需合并小样本研究,且各研究样本量不均衡时偏误程度各异,使用未校正的d会引入系统性高估。

理解此选择机制对正确解读统计功效(statistical power)分析结果至关重要:采用Cohen's d估算功效时可能高估研究的检测能力,而使用Hedges' g则提供更保守、更可靠的估计。

多组设计与变体

Hedges' g的概念可推广至更复杂的研究设计。对于方差分析(ANOVA)框架下的多组比较,Hedges (1982) 提出了基于omega平方ω2\omega^2)的标准化效应量修正方法。对于配对样本设计(paired samples),Hedges' g的配对版本使用差异分数的标准差作为分母,并相应调整校正因子中的自由度计算公式。

重复测量方差分析(repeated measures ANOVA)或混合设计(mixed design)中,标准化效应量的计算需考虑组内相关系数(intraclass correlation)对标准误的影响,此时Hedges' g的方差公式需引入相关系数项进行调整。

Hedges' g与Glass's Δ的区别

在效应量指标家族中,Hedges' g常与Glass's Δ(Glass's delta)并列讨论,但两者在设计理念上有根本差异。Glass's Δ使用对照组的标准差(而非合并标准差)作为标准化分母:Δ=(Xˉ1Xˉ2)/scontrol\Delta = (\bar{X}_1 - \bar{X}_2)/s_{\text{control}}。这一选择的理论依据在于:实验处理可能影响实验组的方差,使用对照组标准差可保持效应量分母不受处理效应的污染。然而,当总体方差不齐时,Glass's Δ对实验组和对照组的角色分配敏感——互换两组角色会得到不同的效应量值。

Hedges' g(以及Cohen's d)则使用合并标准差,其隐含假设为两组方差齐性。当方差齐性假设成立时,合并标准差作为总体标准差的更优估计量,能提供更稳定、更有效的效应量估计;当方差齐性假设被违反时,应优先考虑Hedges' g的Welch校正版本或Glass's Δ。在实际元分析中,Hedges' g因统计性质更优(更小的方差和更低的偏误)而成为首选,Glass's Δ则更多用于实验-对照设计明确且对照组样本量较大的临床研究。

在元分析中的核心地位

Hedges' g在元分析方法论中占据核心位置,是《心理科学元分析报告标准》(MARS)和《系统综述与元分析优先报告条目》(PRISMA)推荐的标准效应量指标。在典型的元分析流程中,各独立研究的Hedges' g及其方差被提取并编码后,通过以下步骤进行综合:

  1. 计算每个研究的效应量gig_i及其抽样方差viv_i
  2. 选择元分析模型:固定效应模型(假设所有研究共享一个真实效应量)或随机效应模型(允许研究间存在异质性)。
  3. 估计各研究的权重wi=1/viw_i = 1/v_i(固定效应)或wi=1/(vi+τ2)w_i = 1/(v_i + \tau^2)(随机效应,其中τ2\tau^2为研究间方差)。
  4. 计算加权平均效应量gˉ=wigi/wi\bar{g} = \sum w_i g_i / \sum w_i及其置信区间
  5. 通过Q统计量(异质性指数)或H统计量评估研究间异质性。

在实际操作中,Hedges’ g\text{Hedges' g}的异质性检验和亚组分析是评估调节效应(moderator effects)和解释研究间差异来源的基础工具。

软件实现

主流统计软件均提供Hedges' g的计算功能:在R中,\texttt{effsize}包的\texttt{cohen.d()}函数可通过设置\texttt{hedges.correction=TRUE}输出g值;\texttt{metafor}包和\texttt{meta}包则专门为元分析设计,直接提供Hedges' g的加权合并与可视化功能。在Python中,\texttt{scipy.stats}结合\texttt{numpy}可手动计算,而\texttt{pingouin}包的\texttt{compute\_effsize()}函数直接支持\texttt{hedges}选项。SPSS和Stata通过各自的宏(如\texttt{esize}命令和\texttt{metan}包)也提供类似功能。

总结

Hedges' g作为Cohen's d的小样本偏误修正版本,是元分析和效应量综合中的首选标准化指标。其核心贡献在于:通过精确的解析校正因子消除小样本条件下的系统性高估,提供更可靠的总体效应量估计,并为后续的加权合并、异质性检验和调节效应分析奠定坚实的统计基础。在推崇可重复性和精确统计推断的当代科学实践语境下,Hedges' g的应用已从心理学领域扩展至医学、生态学、教育学乃至经济学等广泛学科,成为跨学科循证研究(evidence-based research)方法体系中的关键工具之一。