ARTICLE

测验

测验 (Test / Psychological and Educational Measurement) 在心理测量学 (Psychometrics) 和教育测量学中,测验是指用于系统测量个体在某种心理特质、能力、知识或行为倾向上的表现的标准化工具体系。测验不仅是心理学研究和教育评估的基石,也是现代人才选拔、临床诊断和政策评估中不可或缺的量化手段。从统计学

浏览 0 更新 2026-01-11

测验 (Test / Psychological and Educational Measurement)

心理测量学 (Psychometrics) 和教育测量学中,测验是指用于系统测量个体在某种心理特质、能力、知识或行为倾向上的表现的标准化工具体系。测验不仅是心理学研究和教育评估的基石,也是现代人才选拔临床诊断政策评估中不可或缺的量化手段。从统计学的角度看,测验的核心问题是如何从一个有限的、含有测量误差的行为样本(即测验题目)出发,对被试的潜在真值(即真分数潜在特质)做出有效且可靠的推断。

测验的科学性建立在一整套统计理论基础之上,主要包括经典测验理论 (Classical Test Theory, CTT) 和项目反应理论 (Item Response Theory, IRT)。两者分别从不同角度回答了测验编制和分数解释中的关键问题:测验是否可靠?是否有效?题目是否合适?分数如何比较?

经典测验理论 (CTT)

经典测验理论是最早系统化的测验理论,其核心是真分数模型 (True Score Model)。该模型假设,任何观察分数 XX 都可分解为真分数 TT 与误差分数 EE 之和:

X=T+EX = T + E

其中真分数 TT 定义为被试在无限多次独立施测中所获得分数的期望值,而误差分数 EE 被假定为随机变量,且满足 E[E]=0E[E] = 0Cov(T,E)=0\operatorname{Cov}(T, E) = 0 以及各次测量间误差不相关。基于这一分解,CTT 定义了测验质量的三个核心指标:

  1. 信度 (Reliability):信度系数 rXXr_{XX'} 定义为真分数方差与观察分数方差之比,即 rXX=σT2/σX2r_{XX'} = \sigma_T^2 / \sigma_X^2。信度反映的是测验分数在多大程度上免受随机测量误差的影响,是衡量测验一致性和稳定性的指标。常用的信度估计方法包括重测信度(同一测验在不同时间施测的相关)、复本信度(两个平行版本的相关)以及内部一致性信度(基于单次施测的题目间一致性)。最广泛使用的内部一致性指标是Cronbach's alpha系数: \[ \alpha = \frac{k}{k - 1} \left(1 - \frac{\sum_{i=1}^{k} \sigma_i^2}{\sigma_X^2}\right) \] 其中 kk 为题目数,σi2\sigma_i^2 为第 ii 题的方差,σX2\sigma_X^2 为总分方差。α0.70\alpha \geq 0.70 通常被视为可接受的信度标准,而高风险测验(如高考、执业资格考试)则要求 α0.90\alpha \geq 0.90
  2. 效度 (Validity):效度回答"测验在多大程度上测量了它声称要测量的东西"。现代效度理论将效度视为一个统一的构念效度 (Construct Validity) 概念,涵盖了传统分类中的内容效度(题目是否充分覆盖目标领域)、效标关联效度(测验分数与外部标准的关联程度)和结构效度(测验的因子结构是否与理论假设一致)。效度验证本质上是一个不断积累证据的过程,而非一次性的统计检验。
  3. 题目分析 (Item Analysis):在 CTT 框架下,题目的质量主要通过难度 pp(答对比例)和区分度 DD(高分组与低分组的答对率之差,或题目与总分的点二列相关)来衡量。一般而言,区分度高于 0.300.30 的题目被认为是合格的。

CTT 的直观性和计算简便性使其至今仍被广泛使用,但其局限性也十分明显:题目参数(难度、区分度)依赖于具体样本,被试的能力估计依赖于具体题目,信度估计以测量误差方差恒定(同方差)为前提——这些假设在实际数据中往往难以满足。

项目反应理论 (IRT)

项目反应理论是对 CTT 局限性的直接回应。IRT 不将测验视为一个整体来分析,而是将每道题目建模为被试潜在特质 θ\theta 的函数,从而实现了题目参数不变性能力参数不变性——题目参数不随被试样本变化,能力估计不随题目集合变化(在同一量尺下)。

最常见的 IRT 模型包括针对二分计分题目的Logistic 模型。以三参数 Logistic 模型 (3PL) 为例,被试 jj 答对题目 ii 的概率为:

Pi(θj)=ci+(1ci)exp[ai(θjbi)]1+exp[ai(θjbi)]P_i(\theta_j) = c_i + (1 - c_i) \frac{\exp[a_i(\theta_j - b_i)]}{1 + \exp[a_i(\theta_j - b_i)]}

其中 aia_i 为区分度参数,bib_i 为难度参数,cic_i 为猜测参数(下渐近线)。当 ci=0c_i = 0 时退化为 2PL 模型;当 ai=1a_i = 1ci=0c_i = 0 时退化为Rasch模型,后者因其参数分离性质而在教育测量中受到特别推崇。

IRT 为测验的许多实践问题提供了优雅的解决方案。计算机自适应测验 (Computerized Adaptive Testing, CAT) 即基于 IRT:系统根据被试对已答题目的反应,实时估计其能力 θ^\hat{\theta},然后从题库中选择信息量最大的下一道题目,从而在保证测量精度的前提下大幅缩短测验长度。测验等值 (Test Equating) 也因 IRT 的参数不变性而变得更为严谨——不同试卷版本的分数可以映射到同一量尺上,确保跨年份、跨考次的成绩可比。

应用与前沿

测验的统计方法已远远超出传统心理学和教育学领域。在健康经济学中,患者报告结局测量 (PROMs) 的开发和验证广泛依赖 IRT 和 CTT,用于量化患者的主观健康状况和治疗效果。在劳动经济学中,认知能力测验和非认知技能量表是研究人力资本与收入关系的关键工具——Heckman等人关于非认知能力回报的经典研究即是依赖这类量表。在政治学中,项目反应理论被用于跨国意识形态量表的建构,将不同国家的民意调查数据锚定到可比的尺度上。

近年来,认知诊断模型 (Cognitive Diagnostic Models, CDMs) 和多维项目反应理论 (MIRT) 正在成为前沿热点。CDMs 不再满足于给出一个笼统的能力分数,而是试图揭示被试在细颗粒度的知识或技能属性上的掌握模式,为个性化学习和精准干预提供依据。而从方法论角度看,Bayesian估计方法(如 MCMC)在复杂 IRT 模型参数估计中的应用,极大扩展了可拟合模型的范围。