ARTICLE
配对样本
配对样本 (Paired Samples) 配对样本(Paired Samples),亦称相依样本(Dependent Samples)或配对数据(Matched Pairs),是统计学中一种重要的数据结构。两组样本数据中的观测值并非相互独立,而是以某种方式一一对应或配对存在——每一对数据来自同一个主体或紧密相关的两个主体。 配对设计的核心目的是在比较两组数
配对样本 (Paired Samples)
配对样本(Paired Samples),亦称相依样本(Dependent Samples)或配对数据(Matched Pairs),是统计学中一种重要的数据结构。两组样本数据中的观测值并非相互独立,而是以某种方式一一对应或配对存在——每一对数据来自同一个主体或紧密相关的两个主体。
配对设计的核心目的是在比较两组数据时,控制个体间的异质性所带来的"噪音",从而更精确地评估处理效应。其分析思路是将两个相关测量值转化为单一差值,再对这些差值进行分析。与配对样本相对的概念是独立样本(Independent Samples),后者指两组观测值之间不存在关联,从完全不同的总体中独立抽取。
配对样本的常见形式
- 重复测量设计(Repeated Measures Design):同一研究对象在接受处理前后分别测量。例如,一组患者在服用新降压药前后的收缩压数据——每对是同一患者服药前后的血压值。
- 匹配对设计(Matched-Pairs Design):研究者根据混杂变量(年龄、性别、体重等)将受试者两两配对,使每对在关键特征上尽可能相似,然后随机分配至处理组和控制组。例如,按入学成绩和智商配对后,随机指派新/传统教学法。
- 自然配对(Naturally Occurring Pairs):研究对象天然成对存在,如同卵双胞胎研究遗传与环境影响,或夫妻研究相互影响。
- 不同条件下测量:同一个体在两种条件下分别测量,如同一参与者左手和右手的任务完成时间。
配对样本的统计优势
使用配对样本设计的主要优势是提高统计功效和精确度。首先,它能有效控制个体差异——重复测量中,个体不随时间变化的特征(遗传背景、基本健康状况等)的影响被自然抵消,处理效应因而更清晰。其次,通过减少无关变异(即误差方差),配对设计更容易检测真实存在的处理效应:在相同样本量下,配对检验的统计功效高于独立样本检验;反过来说,达到同等功效所需样本量更小。
配对样本t检验
比较两组配对样本的均值是否存在显著差异,最常用的方法是配对样本t检验(Paired Samples t-test)。其本质是先计算每对数据的差值,再对差值进行单样本t检验,判断差值均值是否显著不为零。
假设有 个配对,两组测量值分别为 和 。首先计算差值 ,然后围绕差值的总体均值 建立假设:
- 零假设 : (两组总体均值无差异)
- 备择假设 : (双侧)、 或 (单侧)
t统计量公式为:
其中 为差值样本均值, 为差值样本标准差, 为配对数量。该统计量服从自由度 的t分布。若 超过显著性水平 下的临界值,或p值小于 ,则拒绝零假设,认为两组均值存在显著差异。
检验的假设前提:
- 随机样本:配对样本从总体中随机抽样获得。
- 正态性:差值 的总体服从正态分布。小样本()时此假设尤为重要;大样本下依中心极限定理,t检验具有稳健性。若正态性严重违背,应使用威尔科克森符号秩检验。
- 配对独立性:不同配对的差值相互独立。
与独立样本t检验的对比
错误地将配对数据当作独立样本分析,会忽略数据内在关联,高估误差变异,降低统计功效,可能漏掉本应显著的差异。反之,将独立样本当作配对样本分析在逻辑上不可行。正确识别数据结构是选择恰当方法的第一步。