ARTICLE
心理测量学
心理测量学 (Psychometrics) 心理测量学是心理学与统计学的交叉学科,研究心理特质的量化测量理论与方法。其核心关切是:如何将不可直接观测的潜变量——如智力、人格特质、态度、情绪状态——通过可观测的行为指标(测验题目反应)加以间接测量,并确保该测量的可靠性与有效性。心理测量学构成了所有标准化心理测验、教育考试、人才测评和临床量表的科学基础。 理论基
心理测量学 (Psychometrics)
心理测量学是心理学与统计学的交叉学科,研究心理特质的量化测量理论与方法。其核心关切是:如何将不可直接观测的潜变量——如智力、人格特质、态度、情绪状态——通过可观测的行为指标(测验题目反应)加以间接测量,并确保该测量的可靠性与有效性。心理测量学构成了所有标准化心理测验、教育考试、人才测评和临床量表的科学基础。
理论基础:经典测验理论
经典测验理论(Classical Test Theory, CTT)是最早系统化的测量理论框架,由斯皮尔曼(Charles Spearman)在20世纪初奠基。CTT的核心模型为:
其中 为观测分数, 为真分数(受试者在该特质上的真实水平), 为随机测量误差。CTT的基本假设包括:误差的期望为零,真分数与误差不相关,不同测量的误差不相关。
CTT框架下定义了三个核心概念:信度(reliability)——测量结果的一致性,常用指标包括重测信度、内部一致性信度(克隆巴赫 系数)和评分者信度;效度(validity)——测验是否测量了其所声称测量的构念,分为内容效度、校标关联效度和构念效度;难度与区分度——题目的统计属性,难度以通过率度量,区分度以题目与总分的点二列相关度量。CTT的优点是模型简洁、假设宽松、计算简便,在样本量不大时仍可使用;其局限在于题目参数(难度、区分度)和信度均依赖于样本——同一题目在不同能力群体中的统计特征不同,信度也随样本变异性变化。
现代框架:项目反应理论
项目反应理论(Item Response Theory, IRT),又称潜在特质理论或项目特征曲线理论,由洛德(Frederic Lord)和拉什(Georg Rasch)等人在1950--1960年代发展成熟。与CTT关注整体测验不同,IRT以单个题目为分析单位,模型化受试者对每一题目的反应概率与其潜在特质水平之间的函数关系。
核心概念是项目特征曲线(Item Characteristic Curve, ICC):以潜在特质水平 为横轴,正确作答概率 为纵轴的S形曲线。常见模型包括:
- 1参数Logistic模型(1PL / Rasch模型):仅含难度参数 ,假设所有题目区分度相同,不设猜测参数。
- 2参数Logistic模型(2PL):引入难度 和区分度 ,允许不同题目贡献不等的信息量。
- 3参数Logistic模型(3PL):再引入猜测参数 ,建模低能力者随机猜对的概率,广泛用于选择题测验。
IRT相较CTT具有关键优势:题目参数具有样本不变性——题目的难度和区分度估计不依赖于施测样本的能力分布;能力参数 也具有测验不变性——同一受试者参加不同测验所估计出的能力在同一量尺上可比。这些性质使IRT成为计算机自适应测验(CAT)的理论基础:系统根据受试者已作答的题目实时估计其 ,并从题库中选择信息量最大的下一题,从而以更少的题目达到同等精度。
信息函数是IRT的另一核心概念:与CTT用一个信度系数概括整个测验不同,IRT测量精度是 的函数——测验在某一能力水平上的信息量越大,该水平上的测量误差越小。这使测验开发者可以精确评估测验对不同能力段的测量精度。
因素分析与结构方程模型
心理测量学的另一支柱是因素分析(Factor Analysis),由斯皮尔曼在研究智力结构时首创,后经瑟斯顿(Louis Thurstone)发展为多因素方法。探索性因素分析(EFA)用于从观测变量的相关矩阵中提取少数潜在公因素,揭示数据结构;验证性因素分析(CFA)则检验预设的维度结构是否与数据吻合。CFA进一步发展为结构方程模型(SEM),可同时建模测量模型(潜变量与其指标的关系)与结构模型(潜变量之间的关系),成为当代心理测量学最强大的分析工具之一。
信度与效度的现代理解
1999年《教育与心理测验标准》将效度统一为构念效度的单一框架:所有效度证据——内容、校标关联、内部结构、反应过程、后果——均服务于对测验分数解释与使用的论证。效度不再被视为测验本身的属性,而是分数解释的合理性论证。概化理论(Generalizability Theory)由克龙巴赫(Lee Cronbach)等人发展,将CTT的信度概念推广:识别并量化多来源的测量误差(题目、评分者、场合及其交互),允许研究者根据决策类型设计最优的测量方案。
应用领域与当代议题
心理测量学支撑的领域广泛:教育测量(高考、SAT、PISA)、人事选拔(公务员考试、企业测评中心)、临床诊断(MMPI、贝克抑郁量表)、认知神经科学(工作记忆容量、加工速度的测量)。当代前沿议题包括:测量不变性——测验在不同性别、文化、语言群体间是否保持相同的量尺和意义,这是跨国比较和公平性论证的前提;计算机化与AI——自动题目生成、自动化评分(作文评分引擎)、基于过程的测量(反应时、眼动数据);多维IRT与认知诊断模型——从单一总分转向精细的认知属性剖面,回答"学生掌握了什么,未掌握什么"。
心理测量学的核心洞见是:测量不是简单的数字赋予,而是从理论构念到操作指标、从数据到推断的持续论证过程——每一个测验分数的背后,都必须有一条经得起检验的效度论证链。