ARTICLE

观测数据

观测数据(Observed Data) 观测数据(observed data)是统计学、计量经济学和数据科学中最基础的数据类型,指研究者通过调查、行政记录、传感器采集、商业交易记录等方式被动记录的数据,而非通过随机对照试验主动操纵处理分配生成的实验数据。在经济学中,绝大多数实证研究依赖观测数据——GDP序列、家庭消费调查、上市公司财务报表、劳动力面板数据等—

浏览 3 更新 2025-10-26

观测数据(Observed Data)

观测数据(observed data)是统计学计量经济学数据科学中最基础的数据类型,指研究者通过调查、行政记录、传感器采集、商业交易记录等方式被动记录的数据,而非通过随机对照试验主动操纵处理分配生成的实验数据。在经济学中,绝大多数实证研究依赖观测数据——GDP序列、家庭消费调查、上市公司财务报表、劳动力面板数据等——这使得理解观测数据的性质成为从事经验研究的核心技能。

观测数据的主要类型

观测数据可按其结构维度分为三类。横截面数据(Cross-Sectional Data)是在同一时点对多个观测单位(如家庭、企业、国家)的记录,例如某年全国各省的GDP和人口数据。时间序列数据(Time Series Data)是单个观测单位在不同时点的取值序列,如1950—2020年美国的月度失业率。面板数据(Panel Data)则同时具有横截面和时间序列两个维度——对每个观测单位在多个时点进行追踪记录,如中国上市公司的季度财务面板。面板数据的独特优势在于可以控制不随时间变化的不可观测个体异质性,因此在现代计量经济学中尤其受重视。

观测数据与实验数据的区别

观测数据与实验数据的根本区别不在于形式而在于数据生成过程。实验数据的核心特征是随机化——处理变量由研究者随机分配,使得处理组与对照组在潜在结果上可比。观测数据则不存在这一保障:个体是否接受处理由自选择或外部机制决定,处理组与对照组通常在可观测和不可观测特征上存在系统差异。这一差异导致了观测数据最核心的挑战——选择偏差混淆偏差。在Rubin因果模型框架下,观测数据中直接比较处理组与对照组的结果均值,所得差异是因果效应与选择偏差的混合。

观测数据的来源与质量问题

经济学观测数据的主要来源包括:政府统计机构发布的官方数据(如国民经济核算消费者价格指数)、人口普查与大样本调查(如中国家庭追踪调查CFPS)、企业运营中产生的行政记录(如纳税申报、社保缴费记录),以及近年兴起的互联网平台数据和卫星遥感数据。这些数据源各有其优势和局限。测量误差是观测数据无法回避的共性问题——调查中的回忆偏差、行政记录中的录入错误、面板数据中的样本磨损(attrition)都可能严重扭曲估计结果。当解释变量存在经典测量误差时,OLS估计量将产生衰减偏误,向零方向不一致。

识别策略:从观测数据中提取因果信息

过去三十年间,计量经济学发展了一系列识别策略,使得研究者能够在合理假设下从观测数据中推断因果效应。这些策略包括:回归调整(控制可观测变量以近似条件随机化)、工具变量法(利用外生变异源来隔离处理的因果效应)、双重差分法(利用政策前后和处理组对照组的双重比较消除固定混杂)、断点回归设计(利用阈值附近的局部随机化)和合成控制法(构造反事实对照)。这些方法的共同精神是清晰阐明"识别变异从何而来"——这是观测数据研究中最重要的方法论自觉。

局限性

即使采用精密的识别策略,观测数据仍面临若干根本局限。条件独立假设不可检验——我们永远无法直接验证是否已控制了所有混杂因素。共同支撑问题——当处理组与对照组的特征分布差异过大时,任何方法都依赖外推。外部有效性——识别出的往往是特定子群体的局部效应(如LATE),推广时需谨慎。此外,模型依赖数据挖掘问题在观测数据中尤为突出:同一数据采用不同的合理分析路径可能得出截然相反的结论。预注册、敏感性分析复制研究是缓解这些问题的重要实践。

观测数据虽不完美,却是经济学认知现实世界的根本途径。可信度革命的核心成果,正是使观测数据研究的手段和标准大幅提升,向更透明、更严谨、更可复现的方向持续演进。