ARTICLE

观测数据

观测数据（Observed Data）观测数据（observed data）是统计学、计量经济学和数据科学中最基础的数据类型，指研究者通过调查、行政记录、传感器采集、商业交易记录等方式被动记录的数据，而非通过随机对照试验主动操纵处理分配生成的实验数据。在经济学中，绝大多数实证研究依赖观测数据——GDP序列、家庭消费调查、上市公司财务报表、劳动力面板数据等—

浏览 3 更新 2025-10-26

观测数据（Observed Data）

观测数据（observed data）是统计学、计量经济学和数据科学中最基础的数据类型，指研究者通过调查、行政记录、传感器采集、商业交易记录等方式被动记录的数据，而非通过随机对照试验主动操纵处理分配生成的实验数据。在经济学中，绝大多数实证研究依赖观测数据——GDP序列、家庭消费调查、上市公司财务报表、劳动力面板数据等——这使得理解观测数据的性质成为从事经验研究的核心技能。

观测数据的主要类型

观测数据可按其结构维度分为三类。横截面数据（Cross-Sectional Data）是在同一时点对多个观测单位（如家庭、企业、国家）的记录，例如某年全国各省的GDP和人口数据。时间序列数据（Time Series Data）是单个观测单位在不同时点的取值序列，如1950—2020年美国的月度失业率。面板数据（Panel Data）则同时具有横截面和时间序列两个维度——对每个观测单位在多个时点进行追踪记录，如中国上市公司的季度财务面板。面板数据的独特优势在于可以控制不随时间变化的不可观测个体异质性，因此在现代计量经济学中尤其受重视。

观测数据与实验数据的区别

观测数据与实验数据的根本区别不在于形式而在于数据生成过程。实验数据的核心特征是随机化——处理变量由研究者随机分配，使得处理组与对照组在潜在结果上可比。观测数据则不存在这一保障：个体是否接受处理由自选择或外部机制决定，处理组与对照组通常在可观测和不可观测特征上存在系统差异。这一差异导致了观测数据最核心的挑战——选择偏差与混淆偏差。在Rubin因果模型框架下，观测数据中直接比较处理组与对照组的结果均值，所得差异是因果效应与选择偏差的混合。

观测数据的来源与质量问题

经济学观测数据的主要来源包括：政府统计机构发布的官方数据（如国民经济核算、消费者价格指数）、人口普查与大样本调查（如中国家庭追踪调查CFPS）、企业运营中产生的行政记录（如纳税申报、社保缴费记录），以及近年兴起的互联网平台数据和卫星遥感数据。这些数据源各有其优势和局限。测量误差是观测数据无法回避的共性问题——调查中的回忆偏差、行政记录中的录入错误、面板数据中的样本磨损（attrition）都可能严重扭曲估计结果。当解释变量存在经典测量误差时，OLS估计量将产生衰减偏误，向零方向不一致。

识别策略：从观测数据中提取因果信息

过去三十年间，计量经济学发展了一系列识别策略，使得研究者能够在合理假设下从观测数据中推断因果效应。这些策略包括：回归调整（控制可观测变量以近似条件随机化）、工具变量法（利用外生变异源来隔离处理的因果效应）、双重差分法（利用政策前后和处理组对照组的双重比较消除固定混杂）、断点回归设计（利用阈值附近的局部随机化）和合成控制法（构造反事实对照）。这些方法的共同精神是清晰阐明"识别变异从何而来"——这是观测数据研究中最重要的方法论自觉。

局限性

即使采用精密的识别策略，观测数据仍面临若干根本局限。条件独立假设不可检验——我们永远无法直接验证是否已控制了所有混杂因素。共同支撑问题——当处理组与对照组的特征分布差异过大时，任何方法都依赖外推。外部有效性——识别出的往往是特定子群体的局部效应（如LATE），推广时需谨慎。此外，模型依赖和数据挖掘问题在观测数据中尤为突出：同一数据采用不同的合理分析路径可能得出截然相反的结论。预注册、敏感性分析和复制研究是缓解这些问题的重要实践。

观测数据虽不完美，却是经济学认知现实世界的根本途径。可信度革命的核心成果，正是使观测数据研究的手段和标准大幅提升，向更透明、更严谨、更可复现的方向持续演进。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。