ARTICLE

观测数据 (observed data)

观测数据 (Observed Data) 观测数据（observed data），亦称观察性数据或非实验数据，是统计学与计量经济学中的核心数据类型——研究者通过调查、行政记录、传感器采集等被动记录方式获取的数据，而非通过随机对照试验（RCT）主动操纵处理分配而生成的实验数据。观测数据构成了经济学实证研究的绝对主体：GDP、通货膨胀率、劳动力调查、企业面板数据

浏览 0 更新 2025-10-26

观测数据 (Observed Data)

观测数据（observed data），亦称观察性数据或非实验数据，是统计学与计量经济学中的核心数据类型——研究者通过调查、行政记录、传感器采集等被动记录方式获取的数据，而非通过随机对照试验（RCT）主动操纵处理分配而生成的实验数据。观测数据构成了经济学实证研究的绝对主体：GDP、通货膨胀率、劳动力调查、企业面板数据等几乎全部来自观测。然而，观测数据的根本挑战在于：正因为处理分配不受研究者控制，个体进入处理组或对照组的机制可能与潜在结果相关，从而使因果推断面临选择偏误和混淆偏差的威胁。

观测数据的核心特征

观测数据与实验数据的本质区别不在于形式——两者都可以是面板数据、截面数据或时间序列——而在于数据生成过程（Data Generating Process, DGP）：

非随机化：处理变量 $D_i$ 的取值不由研究者随机分配，而是个体自选择或外部机制决定。
协变量不平衡：处理组与对照组在可观测特征（如年龄、教育）上往往存在系统差异。
不可观测混杂：即使控制了所有可观测变量，仍可能存在同时影响 $D_i$ 与结果 $Y_i$ 的不可观测因素 $U_i$ 。

用Rubin因果模型（潜在结果框架）表达：对于个体 $i$ ，我们仅能观测到 $Y_i = D_i Y_i(1) + (1 - D_i) Y_i(0)$ ，即处理组看到 $Y_i(1)$ ，对照组看到 $Y_i(0)$ ，永远无法同时观测到同一个体的两种潜在结果。这是因果推断的根本问题。在观测数据中，由于 $D_i \not\perp (Y_i(0), Y_i(1))$ ，直接比较 $\mathbb{E}[Y_i | D_i = 1] - \mathbb{E}[Y_i | D_i = 0]$ 将得到混合了因果效应与选择偏差的估计量：

\underbrace{\mathbb{E}[Y_i | D_i = 1] - \mathbb{E}[Y_i | D_i = 0]}_{\text{观测差异}} = \underbrace{\mathbb{E}[Y_i(1) - Y_i(0) | D_i = 1]}_{\text{处理组平均处理效应 (ATT)}} + \underbrace{\left(\mathbb{E}[Y_i(0) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 0]\right)}_{\text{选择偏差}}

识别策略

观测数据无法像实验数据那样直接通过随机化消除选择偏差，因此计量经济学发展了一系列识别策略（identification strategies）来逼近因果效应：

回归调整（Regression Adjustment）：假设条件独立假设（CIA / Unconfoundedness）——即给定可观测协变量 $X_i$ 后， $D_i \perp (Y_i(0), Y_i(1)) | X_i$ ——通过控制 $X_i$ 来消除混淆。典型方法包括多元线性回归、倾向得分匹配（Propensity Score Matching, PSM）和逆概率加权（IPW）。
工具变量法（Instrumental Variables, IV）：寻找一个与 $D_i$ 相关但与 $Y_i$ 的不可观测决定因素不相关的变量 $Z_i$ ，通过仅利用 $Z_i$ 引起的 $D_i$ 外生变异来识别局部平均处理效应（LATE）。经典案例包括Angrist与Krueger（1991）用出生季度作为教育年限的工具变量。
双重差分法（Difference-in-Differences, DiD）：当拥有政策实施前后及处理/对照组的面板数据时，通过比较两组在政策前后的变化差异来消除不随时间变化的不可观测混杂因素。核心假设是平行趋势假设（Parallel Trends Assumption）。
断点回归（Regression Discontinuity Design, RDD）：当处理分配基于某个连续运行变量（running variable）的阈值时，在阈值附近的处理分配近似局部随机，从而识别局部平均处理效应。这一设计因其透明性和可检验性在近二十年获得了极高的可信度。
合成控制法（Synthetic Control Method, SCM）：通过构造一个"合成对照"（多对照单元的加权组合）来模拟处理单元在未接受处理时的反事实路径，特别适用于比较案例研究中的单个或少量处理单元。

观测数据的局限性

即使采用最精密的识别策略，观测数据仍面临若干不可回避的局限。理解这些局限是审慎解读实证结论的前提。

1. 条件独立假设不可检验：CIA 本质上是不可直接检验的——我们永远无法观察反事实。所谓的"伪结果检验"（placebo test）和"平衡性检验"只能提供间接证据。研究者需要借助敏感性分析（如 Rosenbaum Bounds 或 Imbens 的敏感性参数）来评估结论对不可观测混杂的稳健程度。

2. 共同支撑问题（Common Support）：当处理组和对照组的倾向得分分布几乎没有重叠时，任何基于匹配或加权的方法都需要大量外推，结果高度依赖模型设定。Crump et al. (2009) 提出的最优子集选择策略和熵平衡（Entropy Balancing）等方法可用于改善协变量平衡，但不能完全消除外推风险。

3. 外部有效性：观测研究识别的往往是特定子群体的局部效应（如 IV 对 Compliers 的 LATE，RDD 对阈值附近的局部效应），推广至全局或不同情境需格外谨慎。Deaton (2010) 对 IV 方法将局部效应等同于政策参数的倾向提出了著名的批评，强调不同方法所估计的参数在理论含义上可能差异巨大。

4. 测量误差：观测数据（尤其是行政数据和调查数据）的测量质量通常低于精心设计的实验，衰减偏差和错分偏差可能严重扭曲估计结果。特别地，当关键解释变量存在经典测量误差时，即使在大样本下 OLS 估计量也不一致，这是误差变量模型（Errors-in-Variables）的基本结论。

5. 模型依赖与数据挖掘：观测研究通常需要研究者进行大量的模型选择决策——包含哪些控制变量、使用什么函数形式、如何处理异常值——而研究者可能有意无意地选择产生显著结果的设定。Simonsohn et al. (2014) 证明，在观测数据中，即使对同一样本，不同的合理分析策略也可能产生截然相反的结论。预注册（pre-registration）和多重假设检验校正（如 Bonferroni 或 BH 程序）正在成为缓解这一问题的重要手段。

观测数据在经济学中的地位

尽管存在上述局限，观测数据仍是经济学的经验基石。从弗里德曼的消费函数到卡德与克鲁格的最低工资研究，从宏观经济学的跨国增长回归到劳动经济学的微观面板分析，观测数据支撑了绝大多数的实证结论。"可信度革命"（Credibility Revolution）的核心目标，正是通过更透明的识别策略和更严格的稳健性检验，使得观测数据的因果推断尽可能逼近实验数据的理想标准。这一革命深刻改变了当代实证经济学的面貌——今天的经验研究者不再满足于简单的回归系数，而是要求清晰地阐明"识别变异从何而来"（What is the source of identifying variation?），这正是观测数据研究的灵魂之问。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。