ARTICLE

顺序数据

顺序数据 (Ordinal Data) 顺序数据 (Ordinal Data) 是统计学与计量经济学中四种基本数据类型之一,介于分类数据与数值数据之间。其核心特征是:观测值可以按照某种内在逻辑进行排序或赋予等级,但相邻类别之间的差距没有明确的数值意义,也不一定相等。换言之,顺序数据的取值具有可比性(知道谁大谁小),但不具备可度量性(不知道大多少)。在 Ste

浏览 0 更新 2025-10-26

顺序数据 (Ordinal Data)

顺序数据 (Ordinal Data) 是统计学与计量经济学中四种基本数据类型之一,介于分类数据数值数据之间。其核心特征是:观测值可以按照某种内在逻辑进行排序或赋予等级,但相邻类别之间的差距没有明确的数值意义,也不一定相等。换言之,顺序数据的取值具有可比性(知道谁大谁小),但不具备可度量性(不知道大多少)。在 Stevens (1946) 的经典测量尺度分类中,顺序尺度 (Ordinal Scale) 是仅次于名义尺度的第二个层级。

四种测量尺度的定位

理解顺序数据的最佳入口是将其置于 Stevens 的四尺度框架中:

  • 名义尺度 (Nominal Scale):仅用于区分类别,无天然顺序。例如:性别(男/女)、血型(A/B/AB/O)、国籍。名义数据只能进行“等于”或“不等”的比较。
  • 顺序尺度 (Ordinal Scale):类别之间存在明确的排序关系,但间距不可度量。例如:教育程度(小学 < 中学 < 大学 < 研究生)、满意度评分(非常不满意 < 不满意 < 中立 < 满意 < 非常满意)、竞赛名次(冠军、亚军、季军)。
  • 等距尺度 (Interval Scale):排序存在且间距有等距意义,但零点为人为设定。例如:摄氏温度、年份、智商分数。30C30^\circ\text{C}20C20^\circ\text{C}的差等于20C20^\circ\text{C}10C10^\circ\text{C}的差,但不能说40C40^\circ\text{C}20C20^\circ\text{C}的两倍热。
  • 比率尺度 (Ratio Scale):既具有等距性质,又有绝对零点,比率有意义。例如:收入、年龄、身高、重量。0 元、0 岁、0 公斤均为绝对零点。

顺序数据的独特困境在于:它比名义数据多传递了方向信息,但又比等距/比率数据缺少尺度信息。这种“半结构化”特性使得适用于顺序数据的统计方法既不能像名义数据那样只关心频数,也不能像连续数据那样直接计算均值——因为“非常满意”与“满意”之间的距离是否等于“满意”与“中立”之间的距离,本身就是一个悬而未决的建模假设。

数学表达与序关系

从数学角度,顺序变量YY在一个有限或可数的有序空间Y\mathcal{Y}中取值,且该空间上定义了一个全序关系\preceq。设Y={y1,y2,,yK}\mathcal{Y} = \{y_1, y_2, \ldots, y_K\},则:

y1y2yKy_1 \prec y_2 \prec \cdots \prec y_K

该序关系仅保证传递性(若yayby_a \prec y_bybycy_b \prec y_cyaycy_a \prec y_c)和反对称性,但不保证数值间距的等距性。很多教材引入潜变量 (Latent Variable) 模型来将顺序数据与连续分布建立联系:假设存在一个不可观测的连续潜变量YY^*和一个阈值向量=α0<α1<<αK=-\infty = \alpha_0 < \alpha_1 < \cdots < \alpha_K = \infty,使得观测到的顺序类别由潜变量落在哪个区间决定:

Y=k当且仅当αk1<Yαk,k=1,2,,KY = k \quad \text{当且仅当} \quad \alpha_{k-1} < Y^* \leq \alpha_k, \quad k = 1, 2, \ldots, K

这一框架是有序Probit模型有序Logit模型的理论基础——两者均是处理顺序被解释变量的核心计量工具。给定一组解释变量XX,潜变量模型设定Y=Xβ+εY^* = X\beta + \varepsilon,其中ε\varepsilon的分布决定具体模型形式:若εN(0,1)\varepsilon \sim N(0, 1)则为 Ordered Probit;若ε\varepsilon服从标准Logistic分布则为 Ordered Logit。

描述性统计的注意事项

顺序数据的描述统计面临一个根本性问题:类别标签通常是任意赋值的数字(如 1-5 的 Likert 量表),把这种数字当作等距数值来取算术平均,在理论上并不严谨——因为它隐含假定了相邻刻度间距完全相等。然而在实证研究中,这一做法又极为普遍。

中位数与众数。对于顺序数据,中位数(将样本按序排列后取中间位置的类别)和众数(出现频率最高的类别)是完全合法且稳健的描述统计量。它们只依赖序关系而不依赖间距假设。例如,当被调查者对某项政策的满意度数据为\{非常满意, 满意, 中立, 满意, 不满意\} 共五个观测时,众数为“满意”,中位数也为“满意”。

均值争议。如果量表的刻度设计经过了严格的心理测量学检验(如通过 Rasch 模型或项目反应理论验证了等距性),那么使用算术均值可以接受。但在未经校准的量表上直接报告均值,应在脚注中说明其局限性。一种折中方案是同时报告均值与中位数/众数,让读者自行判断。

离散趋势。顺序数据的离散趋势可用四分位距 (Interquartile Range, IQR) 描述:报告第 25 百分位数与第 75 百分位数之间的类别跨度。也可以使用(基于类别频率分布):H=k=1KpklnpkH = -\sum_{k=1}^{K} p_k \ln p_k,但熵忽略了顺序信息,仅反映分布的均匀程度。

推断统计与假设检验

针对顺序数据的推断方法分为参数化和非参数化两大类。

非参数方法。这是处理顺序数据最安全、最正统的路径。常见的非参数检验包括:

  • Wilcoxon符号秩检验:单样本或配对样本中,比较顺序响应的中位数是否等于某指定值,或两配对组的顺序响应是否存在系统性差异。该检验利用了差值的符号和排序信息,但不依赖正态性假设。
  • Mann-Whitney U 检验(Wilcoxon 秩和检验):比较两个独立样本的顺序变量是否存在位置偏移。零假设为两总体的顺序分布在随机意义上相同。
  • Kruskal-Wallis检验:Mann-Whitney 检验的多组推广,用于检验kk个独立样本的顺序响应是否来自同一总体。是单因素方差分析的秩替代方案。
  • Friedman检验:Kruskal-Wallis 检验的区组设计版本,适用于重复测量或区组设计下的顺序响应数据。
  • Jonckheere-Terpstra检验:在多个独立样本中检验顺序变量是否存在单调趋势(即组1组2k\text{组1} \leq \text{组2} \leq \cdots \leq \text{组}k),比 Kruskal-Wallis 更有统计功效当趋势确实存在时。

相关性与关联度量。衡量两个顺序变量之间关联程度时,标准Pearson相关系数不合适(它要求等距数据和线性关系)。应使用:

  • Spearman秩相关系数ρ\rho:将两个变量分别转化为秩次后计算 Pearson 相关系数,测度单调关联强度,取值范围[1,1][-1, 1]
  • Kendall τ\tau:基于配对比较的协调/不协调计数,不依赖具体数值,仅依赖序关系,比 Spearman 更稳健,尤其在小样本或存在大量结(ties)时。
  • Goodman-Kruskal γ\gammaSomers' D:进一步区分对称与非对称的序关联(哪个变量是解释变量,哪个是响应变量)。

参数模型。当研究者愿意借助潜变量模型对顺序数据施加更强的结构假设时,可采用 Ordered Probit/Logit 回归(被解释变量为顺序变量)或区间回归(当顺序类别对应的连续区间有已知阈值时)。这类模型能够估计解释变量对潜变量YY^*的边际效应,并将回归系数转化为对每个类别的概率偏效应。在经济学中,Ordered Probit 广泛用于分析主观幸福感(满意度从 1 到 5)、信用评级(AAA 到 D)、教育等级等顺序被解释变量。

经济学与社会科学中的应用

顺序数据在实证经济学和社会科学中广泛存在:

  1. 调查与问卷数据。消费者信心指数、企业景气指数、生活满意度调查通常采用 5 点或 7 点 Likert 量表,本质上是顺序数据。在微观计量中,处理此类被解释变量的标准做法是使用 Ordered Probit/Logit,而非普通的 OLS 回归——后者会对类别间距做不合理的等距假设。
  1. 信用评级。标准普尔、穆迪和惠誉等机构的信用评级(如 AAA、AA+、AA、AA-、A+、……、D)是典型的顺序变量。评级迁移矩阵(Rating Transition Matrix)研究一个时期内的评级变化,是信用风险管理的基础工具。评级之间的差距(如从 AA 降到 A 与从 BBB 降到 BB)显然不具有等距的经济意义。
  1. 教育与劳动力市场。受教育程度(初中、高中、本科、硕士、博士)是顺序变量,常用于明瑟方程或其扩展中。职业声望评分、技能等级同样具备顺序尺度特征。
  1. 竞赛与锦标赛。体育比赛名次、竞标排名、学术机构的排名等同样是顺序数据。分析排名决定因素时,使用 Ordered Probit/Logit 或条件 Logit(爆炸 Logit,即 Exploded Logit)比线性回归更合理。
  1. 政策评估。在双重差分断点回归设计中,如果被解释变量是顺序变量(如政策干预后满意度从 3 提高到 4),传统的均值比较可能产生误导。研究者应考虑使用有序响应的非线性 DID 模型或基于潜变量的结构估计。

常见误区与处理建议

误区一:将顺序数据当作等距数据处理。这是实证中最普遍的“便利假设”。用 OLS 回归 Likert 型被解释变量会导致预测值落在类别区间之外、残差异方差、以及系数的错误推断。若有条件,应至少同时报告 OLS 和 Ordered Probit/Logit 的结果作为稳健性检验。

误区二:使用 Pearson 相关系数分析两个顺序变量。Pearson 相关系数测量的是线性关联,而顺序变量之间通常仅存在单调关联。应优先使用 Spearman 秩相关或 Kendall τ\tau,尤其当散点图显示非线性趋势时。

误区三:忽视“结”(Ties)的影响。当样本中存在大量相同秩次时,许多非参数检验的统计功效下降。Kendall τ\tau 有专门的 τb\tau_bτc\tau_c 修正来处理平局。在有大量结的 Likert 数据上,应报告修正后的统计量。

误区四:将 Likert 单项当作连续变量进行因子分析。标准的因子分析建立在连续多元正态假设上。顺序变量应使用基于多项相关系数的因子分析方法,或使用项目反应理论 (IRT) 模型(如 Graded Response Model 或 Partial Credit Model)。

处理建议:第一步是识别数据的测量尺度,明确变量是名义、顺序、等距还是比率。若为顺序,先在描述阶段使用中位数、众数和四分位距;第二,选择与其尺度匹配的推断方法(非参数检验或 Ordered 模型);第三,在结果稳健性部分,报告替代方法(如同时报告 Ordered Probit 和 OLS)以检验结论对建模假设的敏感性。

顺序数据是统计学的灰色地带——它不在名义数据的“无信息”极端,也不在连续数据的“全信息”极端,但恰恰是这种中间性质使其成为实证研究中最为常见也最需要审慎处理的数据类型。扎实掌握顺序数据的特性与分析方法,是合格的经济学与统计学研究者的必备素养。