# 效应大小 (Effect Size)
效应大小 (Effect Size) 是一个{{{统计学}}}概念,用以衡量一个现象或一个变量对另一个变量影响的强度或幅度。与{{{显著性检验}}}(如{{{p-value}}})回答“是否存在效应?”不同,效应大小回答的是“效应有多大?”。因此,它提供了对研究结果实际重要性或实践意义的量化评估。在心理学、医学、教育学、社会科学等实证研究领域中,报告效应大小已成为一项标准实践,它也是进行{{{功效分析}}} (Power Analysis) 和{{{meta分析}}} (Meta-Analysis) 的关键组成部分。
## 效应大小与统计显著性
在进行{{{假设检验}}}时,研究者通常会计算p值来判断结果是否具有{{{统计显著性}}}。一个小的p值(通常 < 0.05)表明观察到的数据在{{{虚无假设}}}为真的情况下不太可能出现,因此我们拒绝虚无假设。然而,p值本身受到{{{样本量}}}的极大影响:
* 一个非常大的样本量可能会使一个极小且无实际意义的效应变得“统计显著”。 * 一个小的样本量可能会因为{{{统计功效}}}不足,而无法检测到一个巨大且有实际意义的效应,导致p值不显著。
效应大小则不受样本量的直接影响,它专注于效应的量级。因此,效应大小和p值提供了互补的信息:
* p值:效应是否可能由随机 chance 造成?(证据的可靠性) * 效应大小:效应在现实世界中有多强?(效应的重要性)
一个理想的研究报告应当同时呈现{{{点估计}}}(如均值差异、相关系数)、{{{置信区间}}}(估计的不确定性)、p值(统计显著性)和效应大小(实践重要性)。
## 效应大小的类型
效应大小有多种衡量方式,通常根据研究设计和数据类型分为几个主要的“家族”。
### 1. 基于差异的效应大小 (The 'd' Family)
这类效应大小主要用于比较两组或多个组之间的差异,通常是均值差异。结果被标准化,以{{{标准差}}}为单位来表示。
* {{{Cohen's d}}} 这是最常用的效应大小指标之一,用于衡量两个独立组均值之间的标准化差异。 公式: $$ d = \frac{\bar{x}_1 - \bar{x}_2}{s_p} $$ 其中,$\bar{x}_1$ 和 $\bar{x}_2$ 分别是两个组的{{{样本均值}}},$s_p$ 是合并标准差 (Pooled Standard Deviation),是对总体标准差的估计。合并标准差的计算公式为: $$ s_p = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} $$ 其中,$n_1, n_2$ 是两组的样本量,$s_1^2, s_2^2$ 是两组的{{{样本方差}}}。 解释:Cohen's d 表示两组均值相差多少个标准差。例如,$d = 0.5$ 意味着第一组的均值比第二组的均值高出0.5个标准差。根据Jacob Cohen的建议,通常有以下经验法则用于解释d值的大小(但这需要根据具体研究领域进行调整): * $d \approx 0.2$:小效应 * $d \approx 0.5$:中等效应 * $d \approx 0.8$:大效应
* {{{Hedges' g}}} Hedges' g 是对 Cohen's d 的一个修正,特别是在小样本($n < 20$)的情况下。Cohen's d 在小样本中存在轻微的正向{{{偏差}}}(会高估真实的效应大小)。Hedges' g 通过一个修正因子来校正这种偏差。对于大样本,g 值和 d 值几乎没有差别。
* Glass's Δ (Delta) 当两个组的{{{方差齐性}}}假设不满足时(即两组的标准差差异很大),使用合并标准差可能不合适。在这种情况下,Glass's Δ 提供了一个替代方案。它通常使用对照组 (Control Group) 的标准差作为标准化的分母,因为对照组的标准差被认为没有受到实验处理的影响,是更稳定的基线。 公式: $$ \Delta = \frac{\bar{x}_{\text{treatment}} - \bar{x}_{\text{control}}}{s_{\text{control}}} $$
### 2. 基于关联的效应大小 (The 'r' Family)
这类效应大小用于衡量两个连续变量之间的关系强度。
* {{{Pearson相关系数}}} (r) 皮尔逊相关系数r本身就是一个非常直观的效应大小指标。它衡量了两个变量之间{{{线性关系}}}的方向和强度。 范围:-1 到 +1。 * $r = 0$ 表示没有线性关系。 * $r > 0$ 表示正相关。 * $r < 0$ 表示负相关。 * $|r| = 1$ 表示完全线性关系。 解释:对于r的效应大小,一般经验法则是: * $|r| \approx 0.1$:小效应 * $|r| \approx 0.3$:中等效应 * $|r| \approx 0.5$:大效应
* {{{决定系数}}} ($R^2$) 决定系数是相关系数r的平方 ($r^2$),在{{{回归分析}}}中通常记为 $R^2$。它表示因变量的{{{方差}}}中有多少比例可以由自变量来解释。 解释:$R^2$ 的取值范围是 0 到 1。例如,$R^2 = 0.25$ 意味着自变量解释了因变量25%的变异,而剩下的75%则由其他因素或随机误差造成。这是一个非常直观的解释效应大小的方式。
### 3. 分类数据的效应大小
当处理分类变量时(例如,性别、治疗结果是否成功),可以使用其他类型的效应大小。
* {{{优势比}}} (Odds Ratio, OR) 优势比常用于{{{列联表}}} (Contingency Table) 和{{{逻辑斯蒂回归}}} (Logistic Regression) 中,尤其在流行病学研究中非常普遍。它表示在某个条件下,某事件发生的[[优势 (Odds)]]是另一个条件下该事件发生优势的多少倍。 解释: * OR = 1:表明暴露与事件之间没有关联。 * OR > 1:表明暴露是事件发生的“风险因素”。 * OR < 1:表明暴露是事件发生的“保护因素”。 例如,在吸烟与肺癌的研究中,OR = 10 意味着吸烟者患肺癌的优势是不吸烟者的10倍。
* {{{风险比}}} (Risk Ratio, RR) 风险比,也称{{{相对风险}}} (Relative Risk),是暴露组中事件发生的{{{概率}}}(风险)与非暴露组中事件发生概率的比值。它比OR更直观,但其应用受限于特定的研究设计(如{{{队列研究}}})。
* Phi (φ) 与 {{{Cramér's V}}} 这两个指标与{{{卡方检验}}} ($\chi^2$ test) 紧密相关,用于衡量两个分类变量之间的关联强度。 * Phi (φ) 适用于 2x2 列联表。 * Cramér's V 是 Phi 的推广,适用于任意大小的列联表。 它们的取值范围是 0 到 1,其中 0 表示没有关联,1 表示完全关联。
## 效应大小的应用
1. 研究结果的解释:效应大小帮助研究者和读者理解研究发现的实际意义,避免仅仅依赖p值做出“有或无”的二元结论。
2. 先验功效分析 (A Priori Power Analysis):在研究设计阶段,研究者需要估算所需的样本量。这需要预先设定一个期望检测到的最小效应大小。如果预期的效应很小,就需要更大的样本量才能有足够的{{{统计功效}}}来检测到它。
3. Meta分析:Meta分析是一种将多个关于同一主题的研究结果进行定量合并的统计方法。效应大小是Meta分析的“通用货币”。研究者从每个研究中提取效应大小(如Cohen's d或r),然后将它们加权平均,得出一个关于该效应的更精确、更可靠的总体估计。