ARTICLE

效应大小

效应大小 (Effect Size) 效应大小 (Effect Size) 是一个统计学概念,用以衡量一个现象或一个变量对另一个变量影响的强度或幅度。与显著性检验(如p-value)回答"是否存在效应?"不同,效应大小回答的是"效应有多大?"。因此,它提供了对研究结果实际重要性或实践意义的量化评估。在心理学、医学、教育学、社会科学等实证研究领域中,报告效应大

浏览 62 更新 2025-10-26

效应大小 (Effect Size)

效应大小 (Effect Size) 是一个统计学概念,用以衡量一个现象或一个变量对另一个变量影响的强度或幅度。与显著性检验(如p-value)回答"是否存在效应?"不同,效应大小回答的是"效应有多大?"。因此,它提供了对研究结果实际重要性或实践意义的量化评估。在心理学、医学、教育学、社会科学等实证研究领域中,报告效应大小已成为一项标准实践,它也是进行功效分析 (Power Analysis) 和meta分析 (Meta-Analysis) 的关键组成部分。

效应大小与统计显著性

在进行假设检验时,研究者通常会计算p值来判断结果是否具有统计显著性。一个小的p值(通常 \textless{} 0.05)表明观察到的数据在虚无假设为真的情况下不太可能出现,因此我们拒绝虚无假设。然而,p值本身受到样本量的极大影响:

  • 一个非常大的样本量可能会使一个极小且无实际意义的效应变得"统计显著"。
  • 一个小的样本量可能会因为统计功效不足,而无法检测到一个巨大且有实际意义的效应,导致p值不显著。

效应大小则不受样本量的直接影响,它专注于效应的量级。因此,效应大小和p值提供了互补的信息:

  • p值:效应是否可能由随机 chance 造成?(证据的可靠性)
  • 效应大小:效应在现实世界中有多强?(效应的重要性)

一个理想的研究报告应当同时呈现点估计(如均值差异、相关系数)、置信区间(估计的不确定性)、p值(统计显著性)和效应大小(实践重要性)。

效应大小的类型

效应大小有多种衡量方式,通常根据研究设计和数据类型分为几个主要的"家族"。

基于差异的效应大小 (The `d' Family)

这类效应大小主要用于比较两组或多个组之间的差异,通常是均值差异。结果被标准化,以标准差为单位来表示。

  • Cohen's d 这是最常用的效应大小指标之一,用于衡量两个独立组均值之间的标准化差异。 公式: \[ d = \frac{\bar{x}_1 - \bar{x}_2}{s_p} \] 其中,xˉ1\bar{x}_1xˉ2\bar{x}_2 分别是两个组的样本均值sps_p合并标准差 (Pooled Standard Deviation),是对总体标准差的估计。合并标准差的计算公式为: \[ s_p = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} \] 其中,n1,n2n_1, n_2 是两组的样本量,s12,s22s_1^2, s_2^2 是两组的样本方差解释:Cohen's d 表示两组均值相差多少个标准差。例如,d=0.5d = 0.5 意味着第一组的均值比第二组的均值高出0.5个标准差。根据Jacob Cohen的建议,通常有以下经验法则用于解释d值的大小(但这需要根据具体研究领域进行调整): \begin{itemize}
  • d0.2d \approx 0.2:小效应
  • d0.5d \approx 0.5:中等效应
  • d0.8d \approx 0.8:大效应

\item Hedges' g

Hedges' g 是对 Cohen's d 的一个修正,特别是在小样本(n\textless20n \textless{} 20)的情况下。Cohen's d 在小样本中存在轻微的正向偏差(会高估真实的效应大小)。Hedges' g 通过一个修正因子来校正这种偏差。对于大样本,g 值和 d 值几乎没有差别。

\item Glass's Δ\Delta (Delta)

当两个组的方差齐性假设不满足时(即两组的标准差差异很大),使用合并标准差可能不合适。在这种情况下,Glass's Δ\Delta 提供了一个替代方案。它通常使用对照组 (Control Group) 的标准差作为标准化的分母,因为对照组的标准差被认为没有受到实验处理的影响,是更稳定的基线。

公式

Δ=xˉtreatmentxˉcontrolscontrol \Delta = \frac{\bar{x}_{\text{treatment}} - \bar{x}_{\text{control}}}{s_{\text{control}}}

\end{itemize}

基于关联的效应大小 (The `r' Family)

这类效应大小用于衡量两个连续变量之间的关系强度。

  • Pearson相关系数 (r) 皮尔逊相关系数r本身就是一个非常直观的效应大小指标。它衡量了两个变量之间线性关系的方向和强度。 范围:-1 到 +1。 \begin{itemize}
  • r=0r = 0 表示没有线性关系。
  • r\textgreater0r \textgreater{} 0 表示正相关。
  • r\textless0r \textless{} 0 表示负相关。
  • r=1|r| = 1 表示完全线性关系。

解释:对于r的效应大小,一般经验法则是:

  • r0.1|r| \approx 0.1:小效应
  • r0.3|r| \approx 0.3:中等效应
  • r0.5|r| \approx 0.5:大效应

\item 决定系数 (R2R^2)

决定系数是相关系数r的平方 (r2r^2),在回归分析中通常记为 R2R^2。它表示因变量的方差中有多少比例可以由自变量来解释。

解释R2R^2 的取值范围是 0 到 1。例如,R2=0.25R^2 = 0.25 意味着自变量解释了因变量25\%的变异,而剩下的75\%则由其他因素或随机误差造成。这是一个非常直观的解释效应大小的方式。 \end{itemize}

分类数据的效应大小

当处理分类变量时(例如,性别、治疗结果是否成功),可以使用其他类型的效应大小。

  • 优势比 (Odds Ratio, OR) 优势比常用于列联表 (Contingency Table) 和逻辑斯蒂回归 (Logistic Regression) 中,尤其在流行病学研究中非常普遍。它表示在某个条件下,某事件发生的优势 (Odds) 是另一个条件下该事件发生优势的多少倍。 解释: \begin{itemize}
  • OR = 1:表明暴露与事件之间没有关联。
  • OR \textgreater{} 1:表明暴露是事件发生的"风险因素"。
  • OR \textless{} 1:表明暴露是事件发生的"保护因素"。

例如,在吸烟与肺癌的研究中,OR = 10 意味着吸烟者患肺癌的优势是不吸烟者的10倍。

\item 风险比 (Risk Ratio, RR)

风险比,也称相对风险 (Relative Risk),是暴露组中事件发生的概率(风险)与非暴露组中事件发生概率的比值。它比OR更直观,但其应用受限于特定的研究设计(如队列研究)。

\item Phi (φ\varphi) 与 Cramér's V

这两个指标与卡方检验 (χ2\chi^2 test) 紧密相关,用于衡量两个分类变量之间的关联强度。

  • Phi (φ\varphi) 适用于 2x2 列联表。
  • Cramér's V 是 Phi 的推广,适用于任意大小的列联表。

它们的取值范围是 0 到 1,其中 0 表示没有关联,1 表示完全关联。 \end{itemize}

效应大小的应用

  1. 研究结果的解释:效应大小帮助研究者和读者理解研究发现的实际意义,避免仅仅依赖p值做出"有或无"的二元结论。
  2. 先验功效分析 (A Priori Power Analysis):在研究设计阶段,研究者需要估算所需的样本量。这需要预先设定一个期望检测到的最小效应大小。如果预期的效应很小,就需要更大的样本量才能有足够的统计功效来检测到它。
  3. Meta分析:Meta分析是一种将多个关于同一主题的研究结果进行定量合并的统计方法。效应大小是Meta分析的"通用货币"。研究者从每个研究中提取效应大小(如Cohen's d或r),然后将它们加权平均,得出一个关于该效应的更精确、更可靠的总体估计。