知经 KNOWECON · 卓越的经济金融统计数学学习平台

效应量

# 效应量 (Effect Size)

效应量 (Effect Size) 是一个{{{统计学}}}概念,它是一个量化指标,用于衡量某一现象的强度或两个变量之间关系的强度。与{{{显著性检验}}}(如 {{{p-value}}})只告诉我们效应是否存在(即是否不为零)不同,效应量告诉我们该效应的大小。因此,它是衡量研究结果实际显著性 (practical significance) 或重要性的核心工具。

在{{{假设检验}}}中,我们可能会得出一个统计上显著的结果(例如,$p < 0.05$),但这仅仅意味着观察到的效应不太可能完全由随机机会造成。然而,一个统计上显著的效应可能在现实世界中非常微小,以至于没有任何实际价值。效应量弥补了这一信息鸿沟,它提供了效应幅度的直接度量,不受{{{样本量}}}大小的影响。

## 为什么效应量至关重要? статистическая значимость vs. практическая значимость

理解效应量的关键在于区分{{{统计显著性}}} (statistical significance)实际显著性 (practical significance)

* 统计显著性 主要受效应大小和样本量的影响。一个极大的样本量可以使一个极其微小、在现实中毫无意义的效应变得“统计上显著”。 * 实际显著性 关注效应的量级是否足够大,以至于在现实世界中值得关注。

一个经典的例子: 假设一项有 1,000,000 人参与的大规模研究发现,一种新开发的维生素补充剂能将IQ得分平均提高 0.1 分,其 {{{p-value}}} 远小于 0.001。 * 从统计显著性来看,结果是高度显著的,我们可以确信这种效应是真实存在的,而非抽样误差。 * 但从实际显著性来看,0.1 分的IQ提升微乎其微,对于个人生活或社会几乎没有任何实际影响。这里的效应量(IQ提升0.1分)就非常小,揭示了该研究结果的实际价值有限。

因此,报告效应量使得研究结果的解释更加完整和有意义。它是{{{元分析}}} (Meta-Analysis) 的基石,因为它提供了一种标准化的方法来比较不同研究(可能有不同的样本量和测量尺度)的结果。

## 效应量的主要类型

效应量可以根据其衡量的现象分为几个主要家族。最常见的两大家族是衡量组间差异的 "d 族" 和衡量变量间关联强度的 "r 族"。

### 差异族 (d-family): 标准化均值差异

这类效应量用于比较两组的{{{平均数}}},例如,实验组与控制组的比较。它通过将两组的平均数之差进行标准化来表示效应。

#### 1. 科恩 d (Cohen's d) 这是最常用的标准化均值差异指标。它表示两个组的平均数相差多少个{{{标准差}}}。其计算公式为: $$ d = \frac{M_1 - M_2}{SD_{pooled}} $$ 其中: * $M_1$ 和 $M_2$ 分别是两个组(例如,实验组和对照组)的平均数。 * $SD_{pooled}$ 是两个组的合并标准差 (pooled standard deviation),它综合了两个样本的变异信息。其计算公式为: $$ SD_{pooled} = \sqrt{\frac{(n_1-1)SD_1^2 + (n_2-1)SD_2^2}{n_1+n_2-2}} $$ 这里,$n_1, n_2$ 是两组的样本量,$SD_1, SD_2$ 是两组各自的标准差。

#### 2. 赫奇斯 g (Hedges' g) 当样本量较小(例如 $n < 20$)时,Cohen's d 会有轻微的向上偏差(高估效应量)。Hedges' g 是对 Cohen's d 的一个修正,提供了对总体效应量的更无偏的估计。对于大样本,g 的值与 d 非常接近。

#### 3. 格拉斯 Δ (Glass's delta) 当实验设计中有一个明确的{{{控制组}}},并且多个实验组都与之比较时,使用控制组的标准差作为标准化的分母可能更为合适。这在实验组的干预可能会影响其{{{方差}}}时尤其有用。

d 族的解释: 心理学家 Jacob Cohen 提出了一个广泛使用的解释效应量大小的经验法则(但这应在具体学科背景下谨慎使用): * $d = 0.2$: 小效应 * $d = 0.5$: 中等效应 * $d = 0.8$: 大效应

### 关联族 (r-family): 关联强度

这类效应量用于衡量两个连续变量之间的{{{相关性}}}或关联强度。

#### 1. 皮尔逊积矩相关系数 (Pearson's r) {{{Pearson's r}}} 本身就是一个效应量指标。它衡量了两个变量之间线性关系的强度和方向,其值介于 -1 和 +1 之间。 * $r = 0$ 表示没有线性关系。 * $r > 0$ 表示正相关。 * $r < 0$ 表示负相关。 * $|r| = 1$ 表示完全线性关系。

#### 2. 决定系数 (Coefficient of Determination, $r^2$ 或 $R^2$) 决定系数是相关系数 r 的平方。它表示一个变量的{{{变异}}}中有多少百分比可以由另一个变量来解释。例如,如果身高和体重之间的相关系数 $r = 0.6$,那么决定系数 $r^2 = 0.36$,这意味着体重的36%的变异可以由身高来解释。$R^2$ 是{{{线性回归模型}}}中常用的一个指标,表示模型对因变量的解释力。

r 族的解释: 同样,Cohen 也为 r 提供了大小解释的指导方针: * $|r| = 0.1$: 小效应 * $|r| = 0.3$: 中等效应 * $|r| = 0.5$: 大效应

### 分类数据的效应量 (Categorical Family)

当处理的数据是分类数据时(例如,成功/失败,患病/健康),通常使用基于比率的效应量。

#### 1. 比值比 (Odds Ratio, OR) {{{比值比}}}常用于{{{逻辑回归}}}和{{{流行病学}}}研究中。它比较的是一个事件在某个组中发生的{{{比值}}} (odds) 与在另一个组中发生的比值的比例。比值定义为事件发生的概率与不发生的概率之比 ($p / (1-p)$)。 * $OR = 1$ 表示暴露与事件无关。 * $OR > 1$ 表示暴露增加了事件发生的比值(风险因素)。 * $OR < 1$ 表示暴露降低了事件发生的比值(保护因素)。

#### 2. 风险比 (Risk Ratio, RR) 也称为相对风险 (Relative Risk),它直接比较两个组中事件发生的{{{概率}}}(风险)。 $$ RR = \frac{p_{exposed}}{p_{unexposed}} $$ * $RR = 1$ 表示两组风险相同。 * $RR > 1.5$ 通常被认为是一个较强的效应,表示风险增加了50%。

## 效应量的应用

1. {{{元分析}}} (Meta-Analysis) 效应量是元分析的“通用货币”。研究者将来自多个独立研究的效应量(如 Cohen's d 或 Odds Ratio)进行统计合并,从而得出一个关于某效应总体大小的、更精确的估计。

2. {{{效力分析}}} (Power Analysis) 在研究设计阶段,研究者需要进行先验{{{效力分析}}} (a priori power analysis) 来决定需要多大的样本量。这个计算需要四个变量中的三个:预期的效应量、统计效力 (statistical power, 通常设为0.8)、{{{显著性水平}}} ($\alpha$, 通常为0.05) 和样本量 ($N$)。预估一个合理的效应量是进行效力分析的关键一步。

3. 结果的解释与沟通 效应量使得研究者可以超越“是/否”的二元结论,而是去讨论“有多少”的问题。它为研究发现的实际重要性提供了一个具体的量度,更易于非专业人士理解。

## 解释与报告的注意事项

* 情境为王 (Context is King): Cohen 的“小、中、大”效应量分类法只是粗略的指导。一个效应量的大小是否重要,最终取决于研究领域和具体问题。在医学上,一个能降低死亡率的“小”效应可能具有巨大的临床价值;而在社会科学的某些领域,一个“大”效应可能只在高度受控的实验室环境中才能出现。 * 报告标准: 许多学术期刊和组织(如美国心理学会APA)现在都要求或强烈建议在报告研究结果时,除了 p-value,还必须报告效应量及其{{{置信区间}}} (Confidence Interval)。 * 置信区间: 任何从样本中计算出的效应量都是对总体效应量的一个点估计。报告其置信区间可以展示该估计的不确定性范围,提供更全面的信息。