ARTICLE

定序变量

定序变量 (Ordinal Variable) 定序变量(Ordinal Variable),又称有序分类变量或等级变量,是测量尺度(Measurement Scale)分类体系中的第二层次,介于定类变量(Nominal Variable)和定距变量(Interval Variable)之间。定序变量的核心特征是:其取值类别之间存在天然的、明确的顺序或等级关

浏览 0 更新 2025-10-26

定序变量 (Ordinal Variable)

定序变量(Ordinal Variable),又称有序分类变量等级变量,是测量尺度(Measurement Scale)分类体系中的第二层次,介于定类变量(Nominal Variable)和定距变量(Interval Variable)之间。定序变量的核心特征是:其取值类别之间存在天然的、明确的顺序等级关系,但类别之间的距离不可度量或没有实质性意义。这一概念源于心理学家 Stanley Smith Stevens 于 1946 年提出的测量尺度四层次理论,至今仍是统计学计量经济学和社会科学研究中变量分类与建模方法选择的基本依据。

定义与数学性质

X X 为一个定序变量,其取值空间为有序类别集合 {C1,C2,,Ck} \{C_1, C_2, \ldots, C_k\} 。对该集合上的元素,存在一个全序关系 \prec ,使得对任意 i<j i < j ,有 CiCj C_i \prec C_j (即 Ci C_i 在顺序上低于或先于 Cj C_j )。然而,对于任意相邻类别 Ci C_i Ci+1 C_{i+1} ,其间的"距离" δi=dist(Ci,Ci+1) \delta_i = \text{dist}(C_i, C_{i+1}) 未知且未必相等的。这一性质将定序变量与定距变量根本区分开来:后者不仅有序,而且相邻刻度之间的间隔具有统一的数值意义(如温度每升高 1C 1^\circ\text{C} 代表相同的热能增量)。

从信息含量角度看,定序变量承载的信息多于定类变量(仅能区分"是否相等"),但少于定距变量(能度量"差多少")。这一信息层级直接决定了可供使用的统计方法范围:对定序数据,可以比较大小、排序、计算分位数(如中位数),但不能直接计算均值标准差——因为要求均值就必须对类别间距做出任意假设。

典型示例

定序变量在经济学和社会科学中极其常见:

  • 教育程度:小学 < 初中 < 高中 < 大学 < 研究生。一个人有更高的学历,但"高中到大学"的差距与"大学到研究生"的差距在知识增量、时间投入或经济回报上可能完全不同。
  • 李克特量表(Likert Scale):在问卷调查中常用的"非常不同意 / 不同意 / 中立 / 同意 / 非常同意"五级或七级量表。这是定序变量的典型代表——可以认为"同意"比"中立"更积极,但无法断言"同意"与"非常同意"的心理距离等于"中立"与"同意"的心理距离。
  • 信用评级:如标普的 AAA > AA > A > BBB > BB > B > CCC。评级之间的违约风险差异并非线性或等距。
  • 社会经济地位:下层 < 中下层 < 中层 < 中上层 < 上层。
  • 比赛名次:冠军、亚军、季军。名次反映相对表现,但冠军与亚军的成绩差距和亚军与季军的差距通常不相等。
  • 满意度评分疼痛等级疾病分期等。

定序变量的统计描述与推断

由于定序变量不能支持加减运算,适用的描述统计方法需基于顺序而非数值:

集中趋势:首选中位数(Median),也可使用众数(Mode)。均值在严格意义上不适用于纯定序数据,但在实践中,特别是对 Likert 量表等多级定序变量,研究者常计算均值作为近似参考。

离散程度:可使用四分位距(IQR)或极差。标准差在理论上不适用,但实践中被广泛报告。

相关性分析:对两个定序变量之间的关系,应使用Spearman秩相关系数Kendall τ系数,它们仅利用变量的排序信息,不依赖间距假设。相比之下,Pearson相关系数假设变量为定距或定比尺度,用于定序变量时可能产生误导。

组间比较Mann-Whitney U检验(两独立样本)和Kruskal-Wallis检验(多样本)是基于秩次的非参数方法,适用于比较不同组别在定序变量上的分布差异。

计量经济学中的定序因变量模型

当定序变量作为因变量出现在回归分析中时,普通最小二乘法(OLS)通常不合适。原因有二:第一,OLS 隐含假设相邻类别之间的间距相等(将 C1,,Ck C_1, \ldots, C_k 直接编码为 1,2,,k 1, 2, \ldots, k ),这一假设在定序数据中难以成立;第二,OLS 的预测值可能超出类别范围。

标准的处理方法是使用定序响应模型(Ordered Response Models),其核心思想是引入一个不可观测的潜变量(Latent Variable)Yi Y_i^* ,假设 Yi Y_i^* 由线性模型 Yi=xiβ+εi Y_i^* = \mathbf{x}_i'\boldsymbol{\beta} + \varepsilon_i 生成,而观测到的定序变量 Yi Y_i 通过一组阈值参数(Thresholds)与潜变量相连:

Yi=j当且仅当τj1<Yiτj,Y_i = j \quad \text{当且仅当} \quad \tau_{j-1} < Y_i^* \le \tau_j,

其中 =τ0<τ1<τ2<<τk1<τk=+ -\infty = \tau_0 < \tau_1 < \tau_2 < \cdots < \tau_{k-1} < \tau_k = +\infty 是待估计的阈值参数。若 εi \varepsilon_i 服从逻辑分布,则为定序 Logit 模型(Ordered Logit);若 εi \varepsilon_i 服从正态分布,则为定序 Probit 模型(Ordered Probit)。这两个模型通过最大似然估计同时估计回归系数 β \boldsymbol{\beta} 和阈值参数 τj \tau_j ,是应用微观计量经济学中处理有序离散因变量的标准工具。

定序自变量在回归中的处理

当定序变量作为自变量时,常见的处理策略包括:

  1. 虚拟变量法(Dummy Variable Approach):将 k k 个类别转换为 k1 k-1 个二值虚拟变量。这是最灵活的方法,不施加任何间距或线性假设,但会消耗自由度,且当类别较多时模型变得臃肿。
  2. 线性编码法:直接将类别编码为 1,2,,k 1, 2, \ldots, k 并作为连续变量纳入模型。此方法简洁,但强行假设相邻类别对因变量的边际效应相等,在多数情况下过于严格。
  3. 正交多项式编码:将定序信息分解为线性、二次、三次等多项式分量,可检验效应的非线性成分,在实验设计中使用较多。

方法选择取决于研究目的和样本量:若关注的是控制该变量而非估计其因果效应,线性编码在样本量有限时更为实用;若定序变量本身是核心解释变量,建议使用虚拟变量法或至少进行线性假设的敏感性检验。

争议与实践妥协

在应用研究中,围绕定序变量的处理存在持久的方法论争议。严格测量理论(Representational Theory of Measurement)坚持:对定序数据计算均值、使用 Pearson 相关或 OLS 回归在数学上是不合法的,因为这些操作依赖于类别间距相等的前提。然而,大量实证研究表明,当定序变量的类别数目较多(如七级或以上 Likert 量表)且分布不过于偏斜时,将其视为定距变量进行分析所得结论与使用定序专用方法所得结论往往高度一致。这一经验发现使得许多研究者——尤其是在心理学、管理学和部分经济学领域——在实用主义和统计严谨性之间采取了灵活态度。

最终,审慎的研究实践建议:对于类别数较少(3--4 级)或分布严重偏斜的定序变量,应优先使用非参数方法和定序响应模型;对于类别较多且分布均匀的定序量表,将之视为近似定距变量可能是可接受的,但应当明确报告这一假设并在稳健性检验中使用定序方法进行交叉验证。