ARTICLE

quantitative data

Quantitative Data(定量数据) 定量数据(Quantitative Data)是指能够以数值形式表示、可进行数学运算和统计分析的结构化信息。与其对应的是定性数据(Qualitative Data),后者描述类别、属性或特征而不以数值度量。定量数据是实证经济学、计量经济学和数据科学的基石,支撑着从描述统计到因果推断的整个分析链条。每一个经济指标

浏览 0 更新 2025-11-27

Quantitative Data(定量数据)

定量数据(Quantitative Data)是指能够以数值形式表示、可进行数学运算和统计分析的结构化信息。与其对应的是定性数据(Qualitative Data),后者描述类别、属性或特征而不以数值度量。定量数据是实证经济学计量经济学数据科学的基石,支撑着从描述统计到因果推断的整个分析链条。每一个经济指标——GDP、通胀率、失业率、基尼系数——本质上都是定量数据的汇总或变换。

定量数据的测量尺度

Stanley Stevens(1946)提出的测量尺度分类框架是理解定量数据结构的起点。定量数据对应其中两种尺度:

区间尺度(Interval Scale):数值之间的差值有确定意义,但零点为人为设定而非绝对零点。典型例子是温度(摄氏度或华氏度):20°C 与 30°C 的温差等于 40°C 与 50°C 的温差,但 0°C 不表示"没有温度"。经济学中的效用函数在序数意义上也常被建模为区间尺度变量。区间尺度的局限在于不能计算比率——不能说 40°C 是 20°C 的"两倍热"。

比率尺度(Ratio Scale):拥有绝对零点,比值有意义。几乎所有的经济核心变量都落在此类:价格、数量、收入、工作时间、货币供给。比率尺度允许全范围的算术运算和比例比较。例如,月收入 20,000 元确实是 10,000 元的两倍,而存货为零意味着完全没有库存。

离散与连续维度

定量数据可进一步分为离散型连续型

离散型定量数据取值于可数集合,通常为整数。经济学中常见的离散变量包括:家庭人口数、企业雇佣人数、专利数量、违约次数。离散数据常由计数过程产生,其概率模型多为泊松分布或负二项分布。

连续型定量数据可以取某一区间内的任意实数值。价格、工资率、GDP增长率、汇率等均为连续变量。理论上无限可分,精度仅受测量工具限制。连续变量的概率模型通常使用正态分布、对数正态分布或 Pareto 分布。

区分离散与连续的实践意义在于选择合适的计量方法:计数数据适用泊松回归或负二项回归,连续数据则可能适用 OLS 或分位数回归

描述统计与汇总指标

定量数据的分析始于描述统计(Descriptive Statistics),目的是用少数汇总指标刻画分布的整体特征:

集中趋势的三个经典度量——均值(mean):xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i,对异常值敏感,在对称分布中最优;中位数(median):第 50 百分位数,稳健于极端值,常用于收入分布分析;众数(mode):出现频率最高的值。三者关系揭示了分布的偏度——右偏分布(如收入)中均值大于中位数大于众数。

离散程度的度量——方差 σ2=1n(xixˉ)2\sigma^2 = \frac{1}{n}\sum (x_i - \bar{x})^2标准差 σ\sigma 反映数据围绕均值的波动幅度;四分位距(IQR)为第 75 与第 25 百分位数之差,稳健于异常值;极差(range)为最大值减最小值,最简单但最不稳定。

分布形态——偏度衡量对称性,峰度衡量尾部厚度。金融收益率数据常呈现尖峰厚尾特征,即峰度超过正态分布的 3,意味着极端事件发生概率远高于正态假设。

在经济学研究中的应用

定量数据在经济学中以三种主要形态出现:

截面数据(Cross-Sectional Data):在单一时间点上观测多个个体(个人、企业、国家),如某年的消费者支出调查。截面分析揭示个体间差异与特征之间的关联,但其核心挑战是遗漏变量偏误——无法观测的个体异质性可能与解释变量相关,导致 OLS 估计不一致。

时间序列数据(Time Series Data):同一观测单位在不同时间点上的重复测量,如季度 GDP。时间序列分析的独特问题包括自相关平稳性单位根。若两个非平稳序列回归,即使经济上毫无联系,也可能产生伪显著的伪回归现象(Granger and Newbold, 1974)。

面板数据(Panel Data):结合截面与时间维度,追踪同一组个体跨期的变化。面板数据的核心优势在于能通过固定效应模型消去不随时间变化的不可观测异质性,从而比纯截面或纯时序研究更接近因果推断。经典形式为:

yit=xitβ+αi+ϵity_{it} = \mathbf{x}_{it}'\boldsymbol{\beta} + \alpha_i + \epsilon_{it}

其中 αi\alpha_i 为个体固定效应,ϵit\epsilon_{it} 为特异误差。通过组内变换或一阶差分可以消去 αi\alpha_i,这是劳动经济学和实证微观研究最广泛使用的识别策略之一。

质量评估与局限

定量数据的价值取决于其信度效度。信度(reliability)指重复测量的一致性——若同一对象反复测量结果差异很大,则数据不可靠。效度(validity)指数据是否真正测量了所声称的概念——GDP 是否真正反映经济福利,CPI 是否准确捕捉生活成本变化,这些是经济学中持续争议的问题。

常见的质量问题包括:测量误差,经典测量误差导致衰减偏误(attenuation bias),使回归系数向零收缩;选择偏差,样本不具代表性时(如仅调查城市居民来推断全国消费),结论无法推广;数据操纵,如某些经济体官方统计数字的系统性失真。

可视化与探索性分析

定量数据的分析通常以探索性数据分析(EDA)为起点,这是 John Tukey 提倡的在建模之前用视觉手段理解数据结构的哲学。常用的可视化工具包括:直方图展示单变量分布形态,其组距选择影响对偏度和峰度的直观判断;箱线图(box plot)通过中位数、四分位数和须线同时呈现集中趋势、离散程度与潜在异常值;散点图揭示两个连续变量之间的关联模式,是识别非线性关系、异方差性和异常点的第一线工具;时间序列图追踪变量随时间的动态演化,可直观判断趋势、季节性和结构突变。

在经济学实证工作流程中,EDA 阶段的关键输出是汇总统计表(summary statistics table),通常报告各变量的样本量、均值、标准差、最小值和最大值。这张表是几乎所有经验论文的第一张正式表格,为读者提供了数据的整体面貌,也是发现编码错误或异常记录的第一道防线。

质量评估与局限

定量数据的另一个认识论局限在于:并非所有经济现象都可以被有意义地量化。制度质量社会资本、消费者信心等概念虽可构建代理变量(proxy variables),但量化过程本身可能丢失概念的丰富内涵。好的实证研究因此在定量分析之外常配合定性洞察,形成混合方法(mixed methods)设计。