ARTICLE
配对样本t检验
配对样本t检验 (Paired Sample t-test) 配对样本t检验 (Paired Sample t-test),也称为 相依样本t检验 (Dependent Sample t-test) 或 配对t检验,是一种统计假设检验方法。它用于比较两个相关或配对样本的均值是否存在统计学意义上的显著差异。此检验的核心在于,数据不是来自两个独立的群体,而是来自
配对样本t检验 (Paired Sample t-test)
配对样本t检验 (Paired Sample t-test),也称为 相依样本t检验 (Dependent Sample t-test) 或 配对t检验,是一种统计假设检验方法。它用于比较两个相关或配对样本的均值是否存在统计学意义上的显著差异。此检验的核心在于,数据不是来自两个独立的群体,而是来自同一组对象在两种不同条件下的测量值,或来自经过匹配的两个对象的测量值。
例如,研究人员可能希望检验一种新药对血压的影响,他们会测量同一批患者服药前和服药后的血压。这里的“服药前”和“服药后”的血压数据就是一对配对样本。配对样本t检验的目的就是确定该药物是否对血压产生了显著影响。
检验的核心思想
与比较两个完全独立群体的独立样本t检验不同,配对样本t检验的巧妙之处在于它将分析的焦点从两个原始样本转移到了它们的 差值 上。
具体来说,对于每一对观测值(例如,每个受试者的“前”和“后”测量值),我们计算出一个差值 。这样,原本的两组数据就被转换成了一个新的、单一的差值样本。随后,配对样本t检验实际上就演变成了对这个差值样本进行的 单样本t检验 (One-sample t-test)。
检验的核心问题是:这个差值样本的总体均值 是否显著不为零?
- 如果差值的均值接近于零,则说明两种条件下没有显著差异。
- 如果差值的均值显著地大于或小于零,则说明两种条件下存在显著差异。
通过这种方式,该检验有效地控制了由个体差异引起的变异。因为每个差值都是在同一个体内部计算的,所以不同个体之间固有的差异(如遗传、健康状况等)被抵消了,从而使得检验能更精确地捕捉到处理或条件本身带来的效果,这通常会带来更高的统计功效。
假设的设立
在进行配对样本t检验时,我们需要设立原假设 () 和备择假设 ()。设 为两配对样本差值的总体均值。
- 原假设 ():两配对样本的总体均值没有差异,即差值的总体均值为0。
- 备择假设 ():可以有三种形式,取决于研究者想要检验的方向。
- 双尾检验 (Two-tailed test):检验是否存在任何差异(不区分方向)。
- 右尾检验 (Right-tailed test):检验第一个样本的均值是否显著大于第二个样本的均值。
- 左尾检验 (Left-tailed test):检验第一个样本的均值是否显著小于第二个样本的均值。
检验统计量
配对样本t检验的t统计量计算公式如下:
其中:
- 是配对差值 的样本均值,即 。这里的 是第 对观测值的差(例如,)。
- 是原假设中设定的差值总体均值,在绝大多数情况下为 0。
- 是配对差值的样本标准差,计算公式为 。
- 是配对观测值的数量(即,差值的个数)。
该t统计量服从一个自由度 (Degrees of Freedom, df) 为 的t分布。
使用条件与假设
要使配对样本t检验的结果有效和可靠,需要满足以下几个前提假设:
- 配对数据 (Paired Data):数据必须是配对的。即两个样本中的观测值是一一对应的。这是该检验方法最根本的要求。
- 因变量为连续变量 (Continuous Dependent Variable):被测量的因变量应该是连续的(即属于区间或比率量表)。
- 差值的正态性 (Normality of Differences):配对值的差值 () 构成的样本应来自一个正态分布的总体。在实践中,t检验对于轻微偏离正态性的情况具有一定的稳健性。根据中心极限定理,当样本量较大时(通常认为 ),即使差值的分布不是严格正态,t检验的结果仍然是相当可靠的。
- 无显著异常值 (No Significant Outliers):差值样本中不应存在会严重影响均值和标准差的极端异常值。
检验步骤与决策
进行一次完整的配对样本t检验通常包括以下步骤:
- 明确研究问题并设立假设:根据研究目的,确定使用双尾、左尾还是右尾检验,并写出 和 。
- 设定显著性水平 ():通常选择 , 或 。这是我们愿意承担的犯第一类错误的概率上限。
- 计算配对差值:为每一对观测值计算差值 。
- 计算差值的均值与标准差:计算 和 。
- 计算t统计量:将 , 和 代入t统计量公式。
- 确定拒绝域或计算p值:
- 临界值法:根据显著性水平 和自由度 ,在t分布表中查找临界值。如果计算出的t统计量落在拒绝域内,则拒绝 。
- p值法:根据计算出的t统计量和自由度 ,计算出p值。p值代表了在原假设为真的情况下,获得当前样本结果或更极端结果的概率。
- 做出统计决策:
- 如果 (或t统计量落在拒绝域内),则拒绝原假设 。结论是,两个样本均值之间存在显著差异。
- 如果 (或t统计量未落在拒绝域内),则不拒绝原假设 。结论是,没有足够的证据表明两个样本均值之间存在显著差异。
- 解释结果:将统计决策转化为对研究问题的实际解释,并可以进一步计算效应量 (Effect Size) 如科恩的d (Cohen's d) 或报告差值的置信区间 (Confidence Interval) 来量化差异的大小。
应用示例
假设一个研究小组想评估一种新的记忆训练方法是否有效。他们招募了10名志愿者,记录了他们在接受训练前和训练后完成一个标准记忆任务的得分。数据如下:
| 志愿者 | 训练前得分 (X1) | 训练后得分 (X2) | 差值 (d = X2 - X1) | | :---: | :---: | :---: | :---: | | 1 | 65 | 70 | 5 | | 2 | 72 | 75 | 3 | | 3 | 80 | 82 | 2 | | 4 | 60 | 68 | 8 | | 5 | 75 | 78 | 3 | | 6 | 82 | 85 | 3 | | 7 | 90 | 92 | 2 | | 8 | 55 | 60 | 5 | | 9 | 73 | 78 | 5 | | 10 | 68 | 72 | 4 |
- 假设:我们想知道训练后得分是否显著提高。
(训练无效) (训练有效,得分提高)
- 显著性水平:设 。
- 计算:
- 差值 如上表所示。
- 差值均值 。
- 差值标准差 。
- 计算t统计量:
- 决策:
- 自由度 。
- 查阅t分布表,对于右尾检验, 和 的临界值为 。
- 我们计算的t值 远大于临界值 (或者说,对应的p值远小于0.05)。
- 结论:我们拒绝原假设。有充分的统计证据表明,该记忆训练方法能够显著提高志愿者的记忆任务得分。