ARTICLE

探索性数据分析

探索性数据分析 (EDA) EDA由图基1977年系统提出——在正式假设检验前以"侦探审问数据"态度研究数据集:总结特征、发现模式、识别异常、检验假设、为建模指方向。强调灵活性、可视化和假设生成(非传统证实性分析CDA的严格检验)。 核心目标与技术 五目标:洞察数据结构(变量类型/规模)、发现数据质量问题(缺失值/异常值)、检验基本假设(正态分布/线性/方差

浏览 42 更新 2025-10-26

探索性数据分析 (EDA)

EDA图基1977年系统提出——在正式假设检验前以"侦探审问数据"态度研究数据集:总结特征、发现模式、识别异常、检验假设、为建模指方向。强调灵活性、可视化和假设生成(非传统证实性分析CDA的严格检验)。

核心目标与技术

五目标:洞察数据结构(变量类型/规模)、发现数据质量问题(缺失值/异常值)、检验基本假设(正态分布/线性/方差齐性)、识别重要变量关系(相关性/趋势/聚类)、生成新假设。

单变量分析

图形:直方图(中心/离散/形态→是否偏态/双峰);箱形图(min/Q1Q_1/中位数/Q3Q_3/max→识别异常值+比较组间);QQ图(检验是否符合特定理论分布→数据点在直线上即吻合)。非图形(汇总统计量):中心趋势均值(易受极端影响)/中位数(稳健)/众数离散程度→极差/IQR/方差与标准差;分布形状→偏度(>0右偏/<0左偏)、峰度

双变量与多变量分析

双变量图形:散点图(连续×连续→关系形式/方向/强度);并排箱形图(连续×分类);热力图相关系数矩阵可视化→颜色深浅表相关强弱)。非图形:协方差+相关系数→量化线性关系方向和强度(r∈[-1,1]);列联表→两分类变量→可续卡方检验

多变量:散点图矩阵(全变量两两配);PCA降维→线性组合成不相关主成分捕捉主要变异);聚类(无监督→按相似性分组→发现潜在群体)。

EDA vs CDA 与数据科学

| 特征 | EDA | CDA | |------|-----|-----| | 目标 | 提问题/生成假设 | 答问题/检验假设 | | 方法 | 开放/灵活/迭代 | 预设/严格/结构化 | | 工具 | 图形化→直方图/散点图 | 统计推断→t检验/ANOVA/回归 | | 产出 | 洞察+新方向 | 显著性判断+参数估计 |

实践:EDA先行→了解清理数据→形成假设→CDA严格验证。机器学习/数据科学中EDA不可或缺第一步→指导特征工程+特征选择(非线性关系→不选线性模型);可视化图表向非技术者沟通数据洞见。