ARTICLE

信度

信度 (Reliability) 在心理测量学、统计学和计量经济学中,信度是指测量工具或量表在重复测量相同对象时产生一致、稳定结果的程度。信度是评价任何测量工具质量的两个核心标准之一,另一个是效度。一个具有高信度的测量工具意味着其测量结果受随机误差 (Random Error) 的干扰很小,因而能够提供可复现的信息。 信度的统计基础来自经典测量理论 (Cla

浏览 4 更新 2025-10-26

信度 (Reliability)

心理测量学统计学计量经济学中,信度是指测量工具或量表在重复测量相同对象时产生一致、稳定结果的程度。信度是评价任何测量工具质量的两个核心标准之一,另一个是效度。一个具有高信度的测量工具意味着其测量结果受随机误差 (Random Error) 的干扰很小,因而能够提供可复现的信息。

信度的统计基础来自经典测量理论 (Classical Test Theory, CTT)。CTT 假设任何观测分数 XX 都由两个互相独立的部分构成:

X=T+EX = T + E

其中 TT真分数 (True Score),代表被测量属性的真实水平;EE随机测量误差 (Random Measurement Error),其期望值为零且与真分数不相关。基于这一分解,信度系数 ρXX\rho_{XX'} 被定义为真分数方差在观测分数方差中所占的比例:

ρXX=Var(T)Var(X)=Var(T)Var(T)+Var(E)\rho_{XX'} = \frac{\mathrm{Var}(T)}{\mathrm{Var}(X)} = \frac{\mathrm{Var}(T)}{\mathrm{Var}(T) + \mathrm{Var}(E)}

信度系数的取值范围为 [0,1][0, 1]。系数越接近 1,表示测量误差方差占比越小,测量越可靠。在实际应用中,ρ>0.70\rho > 0.70 通常被视为可接受的底线,ρ>0.90\rho > 0.90 表示信度优异 (Nunnally, 1978)。

信度的主要类型

由于真分数和误差方差无法直接观测,研究者开发了多种基于不同误差来源的估计方法:

  1. 重测信度 (Test-Retest Reliability):对同一组被试在不同时间点用同一工具重复测量,计算两次得分的相关系数。它反映的是测量在时间维度上的稳定性。两次测量之间的间隔需谨慎选择:太短会受记忆效应影响,太长则可能因被试自身变化而低估信度。
  2. 复本信度 (Parallel-Forms Reliability):构造两个内容等价的测量版本,在同一时间或相近时间内施测于同一组被试,计算两版本得分的相关系数。该方法能同时评估时间稳定性和题目抽样误差,但构造真正平行的复本在实际操作中成本极高。
  3. 内部一致性信度 (Internal Consistency Reliability):在单一时间点、单一版本内评估各题目之间的一致性程度。最常用的指标是克朗巴赫α系数 (Cronbach's Alpha): \[ \alpha = \frac{k}{k-1}\left(1 - \frac{\sum_{i=1}^{k} \sigma_i^2}{\sigma_X^2}\right) \] 其中 kk 为题项数,σi2\sigma_i^2 为第 ii 个题项的方差,σX2\sigma_X^2 为总分的方差。α\alpha 本质上衡量的是所有可能的分半信度的平均值。其局限性在于:当题项数增多时 α\alpha 会人为膨胀,且它不检验量表的单维性
  4. 评分者信度 (Inter-Rater Reliability):当测量涉及主观判断(如面试评分、内容分析编码)时,评估不同评分者之间的一致性程度。常用指标包括Cohen's κ(适用于两名评分者、分类数据)和组内相关系数 (Intraclass Correlation Coefficient, ICC)。
  5. 分半信度 (Split-Half Reliability):将量表题目随机分成两半,计算两半得分的相关系数,再用斯皮尔曼—布朗公式修正为全长量表的信度估计。

信度与效度的关系

信度是效度的必要但不充分条件。用射击靶子来比喻:信度高意味着弹着点高度集中在某一区域,但该区域可能偏离靶心;效度高则意味着弹着点集中在靶心附近。一个测量工具可以信度很高但效度很低(如每次都用一把偏了的秤称重),但不可能效度高而信度低——因为如果测量不能给出稳定的读数,它也不可能准确地捕捉到要测量的属性。这一关系可用公式表达:

ρXYρXX\rho_{XY} \leq \sqrt{\rho_{XX'}}

即两个变量之间的相关系数不会超过任一变量信度系数的平方根,这构成了对观测相关性的衰减校正 (Correction for Attenuation) 的基础。

计量经济学中的测量误差与衰减偏误

计量经济学中,信度问题通常以变量误差 (Errors-in-Variables) 的形式出现。考虑简单线性回归模型:

Yi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i^* + u_i

其中 XiX_i^* 为不可直接观测的真实自变量。研究者只能观测到含有测量误差的 Xi=Xi+eiX_i = X_i^* + e_i,且 eie_iXiX_i^*uiu_i 均不相关(经典测量误差假设)。此时使用 XiX_i 替代 XiX_i^* 进行OLS回归,所得斜率估计量 β^1\hat{\beta}_1 的概率极限为:

plimβ^1=β1Var(X)Var(X)+Var(e)=β1ρXX\operatorname{plim} \hat{\beta}_1 = \beta_1 \cdot \frac{\mathrm{Var}(X^*)}{\mathrm{Var}(X^*) + \mathrm{Var}(e)} = \beta_1 \cdot \rho_{XX'}

这就是著名的衰减偏误 (Attenuation Bias):测量误差导致斜率估计值向零收缩,其收缩比例恰好等于自变量的信度系数。信度越低,偏误越严重。这种偏误不会随样本增大而消失(即OLS不再具有一致性),是实证研究中需要严肃对待的识别威胁。

处理衰减偏误的常用方法包括:使用工具变量 (Instrumental Variables)、采用多次重复测量构造潜变量结构方程模型,或直接对效应量进行衰减校正。

提高信度的策略

  • 增加测量题项数量(但需注意维度问题)。
  • 对评分者进行严格、标准化的培训。
  • 消除题目中的模糊措辞,确保所有被试以相同方式理解。
  • 对变量多次测量后取平均。
  • 在问卷设计中采用已被验证的成熟量表。

信度并非测量的终极目标——真正有价值的是既可靠又有效的测量。但在追求效度之前,确保信度是任何严谨的实证研究的起点。