ARTICLE

Exploratory Data Analysis (EDA)

探索性数据分析 (Exploratory Data Analysis) 探索性数据分析(Exploratory Data Analysis,简称 EDA)是由美国统计学家约翰·图基(John W. Tukey)在 1977 年出版的经典著作 Exploratory Data Analysis 中正式提出并系统阐述的一套数据分析哲学与方法论。与以假设检验和参数

浏览 0 更新 2025-12-15

探索性数据分析 (Exploratory Data Analysis)

探索性数据分析(Exploratory Data Analysis,简称 EDA)是由美国统计学家约翰·图基(John W. Tukey)在 1977 年出版的经典著作 Exploratory Data Analysis 中正式提出并系统阐述的一套数据分析哲学与方法论。与以假设检验和参数估计为核心的验证性数据分析(Confirmatory Data Analysis, CDA)不同,EDA 强调在建模之前先让数据"说话"——通过可视化、汇总统计和模式发现来揭示数据结构、检测异常、识别潜在关系,并为后续的形式化建模提出假设。图基将其描述为"数值侦探工作"(numerical detective work)。

核心理念:先探索,后验证

EDA 的哲学基础可归纳为四个原则:

  1. 数据优先于模型:在假定数据服从某种分布或参数形式之前,应先观察数据的实际形态。EDA 拒绝"用一个事先选定的模型去套数据"的做法。
  2. 可视化是核心工具:人类视觉系统在模式识别上远胜于数字表格。图基在书中系统推广了茎叶图(stem-and-leaf plot)、箱线图(box plot)等至今仍在使用的图形工具。
  3. 对异常值保持开放:离群点不应被自动视为"噪音"而丢弃——它们可能揭示数据收集中的错误、稀有但重要的事件,或模型根本性不适用。
  4. 迭代循环:EDA 与 CDA 并非对立,而是互补。典型的分析流程是:探索 → 假设生成 → 验证 → 再探索。

经典EDA技术工具箱

图基提出的经典 EDA 技术强调简单、直观、抗耐扰(resistant),即不易受极端值过度影响。

汇总统计量

除了传统的均值与标准差,EDA 强调耐抗统计量(resistant statistics):

  • 中位数(median)优于均值:中位数的破坏点(breakdown point)为 50\%,意味着即使近一半数据被任意污染,中位数仍保持稳健。均值的破坏点为 0\%。
  • 四分位数(quartiles)与四分位距(IQR):Q1 Q_1 (第 25 百分位数)、Q2 Q_2 (中位数)、Q3 Q_3 (第 75 百分位数)提供了分布的位置与离散程度的耐抗度量。IQR=Q3Q1 \text{IQR} = Q_3 - Q_1 是识别离群值的标准工具。
  • 五数概括(five-number summary):最小值、Q1 Q_1 、中位数、Q3 Q_3 、最大值,箱线图即是这五个统计量的图形化表示。
  • 三均值(trimean):Q1+2Q2+Q34 \frac{Q_1 + 2Q_2 + Q_3}{4} ,一种兼顾耐抗性与效率的位置估计量。

核心图形工具

  • 茎叶图:兼具数据排序与频数分布特征,可视为直方图的前身,但保留了每一位有效数字的精确信息,适合小到中型数据集。
  • 箱线图(Box Plot):基于五数概括,箱体覆盖 Q1 Q_1 Q3 Q_3 ,中线标记中位数,须(whiskers)延伸至 Q11.5IQR Q_1 - 1.5\,\text{IQR} Q3+1.5IQR Q_3 + 1.5\,\text{IQR} 范围内的最远点,超出须的个别点标记为潜在离群值。箱线图特别适合比较多个组的分布差异。
  • 散点图(scatter plot):最直接的二维关系探索工具。图基提出了平滑散点图(smoothing)的思路——通过LOWESS(Locally Weighted Scatterplot Smoothing)等非参数平滑方法提取趋势,而不预先假定线性或多项式形式。
  • QQ图(Quantile-Quantile Plot):将数据的分位数与理论分布(如正态分布)的分位数对照作图,若数据来自该理论分布,点应大致落在 y=x y=x 线上。系统性偏离暗示分布假设不当。

数据变换与重表达

EDA 的一个重要步骤是寻找合适的数据重表达(re-expression),使数据更对称、方差更稳定、关系更线性。图基的阶梯变换(ladder of powers)提供了一套系统的变换方案:

x(λ)={xλλ>0lnxλ=0xλλ<0x^{(\lambda)} = \begin{cases} x^\lambda & \lambda > 0 \\ \ln x & \lambda = 0 \\ -x^\lambda & \lambda < 0 \end{cases}

常用变换包括平方根(λ=0.5 \lambda=0.5 )、对数(λ=0 \lambda=0 )、倒数(λ=1 \lambda=-1 )等。EDA 分析师通常借助残差图诊断变换效果。

EDA与验证性分析的互补关系

图基将数据分析分为两个不可分割的阶段:

\begin{tabular}{lll} \hline 维度 \& EDA \& CDA \\ \hline 目标 \& 生成假设 \& 检验假设 \\ 方法 \& 可视化、耐抗统计量 \& 概率模型、显著性检验 \\ 对数据的姿态 \& 开放、探索性 \& 受控、检验性 \\ 灵活度 \& 高 \& 受限于预设模型 \\ 典型工具 \& 箱线图、散点图、茎叶图 \& t t 检验、ANOVA、回归系数检验 \\ \hline \end{tabular}

在实际工作中,循环于两者之间是健康的数据分析习惯。EDA 过度使用而不跟进 CDA 易沦为"数据捕捞"(data dredging)——从同一批数据中反复挖掘直到发现"显著"模式,此类结果往往不可复现。相反,跳过 EDA 直接建模可能因模型假设严重失配而得出错误结论。Anscombe四重奏(Anscombe's quartet)即是经典警示:四组数据拥有相同的均值、方差、相关系数和回归线,但其散点图形态截然不同。

现代EDA:计算时代的演进

图基的原始工具在个人计算机普及前即已设计,而现代 EDA 在三个维度上大幅扩展:

  • 高维数据平行坐标图(parallel coordinates)、t-SNEUMAP 等降维可视化技术使分析师能在二维平面上探索数百维数据的结构。主成分分析(PCA)的双标图(biplot)也是经典的高维 EDA 工具。
  • 交互式可视化TableauPlotly、R 的 \texttt{shiny} 和 Python 的 \texttt{streamlit} 等工具允许分析师实时刷选、缩放和联动多视图,极大提升了模式发现的效率。交互式 EDA 已成为现代数据科学工作流的标配。
  • 自动EDA:\texttt{pandas-profiling}(现已更名为 \texttt{ydata-profiling})、\texttt{Sweetviz}、\texttt{AutoViz} 和 R 的 \texttt{DataExplorer} 等工具可自动生成包含缺失值分析、分布概览、相关性矩阵的综合 EDA 报告。自动 EDA 无法替代人工判断,但可大幅加速初步摸底阶段。
  • 统计学习与EDA的融合随机森林的变量重要性排序、SHAP 值和部分依赖图(PDP)可视为 EDA 思想在复杂模型解释中的延伸——在模型拟合后"探索"模型内部的行为。

经济学与计量经济学中的EDA

经济学数据——无论是GDP时间序列、CPI面板数据还是微观调查数据——通常具有强烈的非正态性、序列相关性、结构性断点和异方差性。在应用计量经济学中,跳过 EDA 直接进入OLS回归或工具变量估计是危险的做法。良好的 EDA 实践应包括:

  • 对每个变量做单变量 EDA(分布形态、缺失模式、极端值识别);
  • 检查关键变量间的双变量关系(散点图矩阵);
  • 对时间序列做时序图与自相关函数(ACF)图以识别趋势和季节性;
  • 对面板数据检查个体间异质性与时间趋势。

EDA 本身不回答因果关系问题——它不能替代准实验设计结构估计——但它是任何严谨的经验研究的必要起点。正如图基所言:"远优于对一个错误的模型做精确的拟合,是对正确的数据进行粗略的探索。"

\vspace{0.5em} 约翰·图基 \quad\textperiodcentered\quad 验证性数据分析 \quad\textperiodcentered\quad 箱线图 \quad\textperiodcentered\quad 数据可视化 \quad\textperiodcentered\quad LOWESS \quad\textperiodcentered\quad Anscombe四重奏 \quad\textperiodcentered\quad 计量经济学