ARTICLE
Exploratory Data Analysis (EDA)
探索性数据分析 (Exploratory Data Analysis) 探索性数据分析(Exploratory Data Analysis,简称 EDA)是由美国统计学家约翰·图基(John W. Tukey)在 1977 年出版的经典著作 Exploratory Data Analysis 中正式提出并系统阐述的一套数据分析哲学与方法论。与以假设检验和参数
探索性数据分析 (Exploratory Data Analysis)
探索性数据分析(Exploratory Data Analysis,简称 EDA)是由美国统计学家约翰·图基(John W. Tukey)在 1977 年出版的经典著作 Exploratory Data Analysis 中正式提出并系统阐述的一套数据分析哲学与方法论。与以假设检验和参数估计为核心的验证性数据分析(Confirmatory Data Analysis, CDA)不同,EDA 强调在建模之前先让数据"说话"——通过可视化、汇总统计和模式发现来揭示数据结构、检测异常、识别潜在关系,并为后续的形式化建模提出假设。图基将其描述为"数值侦探工作"(numerical detective work)。
核心理念:先探索,后验证
EDA 的哲学基础可归纳为四个原则:
- 数据优先于模型:在假定数据服从某种分布或参数形式之前,应先观察数据的实际形态。EDA 拒绝"用一个事先选定的模型去套数据"的做法。
- 可视化是核心工具:人类视觉系统在模式识别上远胜于数字表格。图基在书中系统推广了茎叶图(stem-and-leaf plot)、箱线图(box plot)等至今仍在使用的图形工具。
- 对异常值保持开放:离群点不应被自动视为"噪音"而丢弃——它们可能揭示数据收集中的错误、稀有但重要的事件,或模型根本性不适用。
- 迭代循环:EDA 与 CDA 并非对立,而是互补。典型的分析流程是:探索 → 假设生成 → 验证 → 再探索。
经典EDA技术工具箱
图基提出的经典 EDA 技术强调简单、直观、抗耐扰(resistant),即不易受极端值过度影响。
汇总统计量
除了传统的均值与标准差,EDA 强调耐抗统计量(resistant statistics):
- 中位数(median)优于均值:中位数的破坏点(breakdown point)为 50\%,意味着即使近一半数据被任意污染,中位数仍保持稳健。均值的破坏点为 0\%。
- 四分位数(quartiles)与四分位距(IQR):(第 25 百分位数)、(中位数)、(第 75 百分位数)提供了分布的位置与离散程度的耐抗度量。 是识别离群值的标准工具。
- 五数概括(five-number summary):最小值、、中位数、、最大值,箱线图即是这五个统计量的图形化表示。
- 三均值(trimean):,一种兼顾耐抗性与效率的位置估计量。
核心图形工具
- 茎叶图:兼具数据排序与频数分布特征,可视为直方图的前身,但保留了每一位有效数字的精确信息,适合小到中型数据集。
- 箱线图(Box Plot):基于五数概括,箱体覆盖 至 ,中线标记中位数,须(whiskers)延伸至 和 范围内的最远点,超出须的个别点标记为潜在离群值。箱线图特别适合比较多个组的分布差异。
- 散点图(scatter plot):最直接的二维关系探索工具。图基提出了平滑散点图(smoothing)的思路——通过LOWESS(Locally Weighted Scatterplot Smoothing)等非参数平滑方法提取趋势,而不预先假定线性或多项式形式。
- QQ图(Quantile-Quantile Plot):将数据的分位数与理论分布(如正态分布)的分位数对照作图,若数据来自该理论分布,点应大致落在 线上。系统性偏离暗示分布假设不当。
数据变换与重表达
EDA 的一个重要步骤是寻找合适的数据重表达(re-expression),使数据更对称、方差更稳定、关系更线性。图基的阶梯变换(ladder of powers)提供了一套系统的变换方案:
常用变换包括平方根()、对数()、倒数()等。EDA 分析师通常借助残差图诊断变换效果。
EDA与验证性分析的互补关系
图基将数据分析分为两个不可分割的阶段:
\begin{tabular}{lll} \hline 维度 \& EDA \& CDA \\ \hline 目标 \& 生成假设 \& 检验假设 \\ 方法 \& 可视化、耐抗统计量 \& 概率模型、显著性检验 \\ 对数据的姿态 \& 开放、探索性 \& 受控、检验性 \\ 灵活度 \& 高 \& 受限于预设模型 \\ 典型工具 \& 箱线图、散点图、茎叶图 \& 检验、ANOVA、回归系数检验 \\ \hline \end{tabular}
在实际工作中,循环于两者之间是健康的数据分析习惯。EDA 过度使用而不跟进 CDA 易沦为"数据捕捞"(data dredging)——从同一批数据中反复挖掘直到发现"显著"模式,此类结果往往不可复现。相反,跳过 EDA 直接建模可能因模型假设严重失配而得出错误结论。Anscombe四重奏(Anscombe's quartet)即是经典警示:四组数据拥有相同的均值、方差、相关系数和回归线,但其散点图形态截然不同。
现代EDA:计算时代的演进
图基的原始工具在个人计算机普及前即已设计,而现代 EDA 在三个维度上大幅扩展:
- 高维数据:平行坐标图(parallel coordinates)、t-SNE、UMAP 等降维可视化技术使分析师能在二维平面上探索数百维数据的结构。主成分分析(PCA)的双标图(biplot)也是经典的高维 EDA 工具。
- 交互式可视化:Tableau、Plotly、R 的 \texttt{shiny} 和 Python 的 \texttt{streamlit} 等工具允许分析师实时刷选、缩放和联动多视图,极大提升了模式发现的效率。交互式 EDA 已成为现代数据科学工作流的标配。
- 自动EDA:\texttt{pandas-profiling}(现已更名为 \texttt{ydata-profiling})、\texttt{Sweetviz}、\texttt{AutoViz} 和 R 的 \texttt{DataExplorer} 等工具可自动生成包含缺失值分析、分布概览、相关性矩阵的综合 EDA 报告。自动 EDA 无法替代人工判断,但可大幅加速初步摸底阶段。
- 统计学习与EDA的融合:随机森林的变量重要性排序、SHAP 值和部分依赖图(PDP)可视为 EDA 思想在复杂模型解释中的延伸——在模型拟合后"探索"模型内部的行为。
经济学与计量经济学中的EDA
经济学数据——无论是GDP时间序列、CPI面板数据还是微观调查数据——通常具有强烈的非正态性、序列相关性、结构性断点和异方差性。在应用计量经济学中,跳过 EDA 直接进入OLS回归或工具变量估计是危险的做法。良好的 EDA 实践应包括:
- 对每个变量做单变量 EDA(分布形态、缺失模式、极端值识别);
- 检查关键变量间的双变量关系(散点图矩阵);
- 对时间序列做时序图与自相关函数(ACF)图以识别趋势和季节性;
- 对面板数据检查个体间异质性与时间趋势。
EDA 本身不回答因果关系问题——它不能替代准实验设计或结构估计——但它是任何严谨的经验研究的必要起点。正如图基所言:"远优于对一个错误的模型做精确的拟合,是对正确的数据进行粗略的探索。"
\vspace{0.5em} 约翰·图基 \quad\textperiodcentered\quad 验证性数据分析 \quad\textperiodcentered\quad 箱线图 \quad\textperiodcentered\quad 数据可视化 \quad\textperiodcentered\quad LOWESS \quad\textperiodcentered\quad Anscombe四重奏 \quad\textperiodcentered\quad 计量经济学