ARTICLE
散点图
散点图 (Scatter Plot) 散点图(Scatter Plot),又称散布图,是统计学和数据可视化领域中最基本也最重要的图表之一。它通过在笛卡尔坐标系(Cartesian coordinate system)中描绘一系列数据点,来展示两个数值变量(numerical variables)之间的关系或关联性。散点图是进行探索性数据分析(Explorat
散点图 (Scatter Plot)
散点图(Scatter Plot),又称散布图,是统计学和数据可视化领域中最基本也最重要的图表之一。它通过在笛卡尔坐标系(Cartesian coordinate system)中描绘一系列数据点,来展示两个数值变量(numerical variables)之间的关系或关联性。散点图是进行探索性数据分析(Exploratory Data Analysis, EDA)和初步检验变量间是否存在相关性(correlation)的强大视觉工具。
在散点图中,每一个数据点(通常表示为一个点、圆圈或叉)代表一个独立的观测值(observation)。该点在坐标系中的位置由其对应的两个变量的值确定:一个变量的值决定了其在水平轴(X轴,X-axis)上的位置,另一个变量的值决定了其在垂直轴(Y轴,Y-axis)上的位置。
通常,我们会将我们假设的"原因"或"预测变量"--即自变量(independent variable)--放在X轴上,而将我们假设的"结果"或"响应变量"--即因变量(dependent variable)--放在Y轴上。
如何解读散点图
解读散点图的目标是从点的分布模式中识别出两个变量之间的潜在关系。分析时通常关注以下几个方面:
一. 关系的形式 (Form)
观察数据点整体的排列形状,可以判断关系是线性的还是非线性的。
- 线性关系 (Linear Relationship):数据点大致沿着一条直线分布。这是最常见的模式,也是许多统计模型(如线性回归)的基础。
- 非线性关系 (Non-linear / Curvilinear Relationship):数据点呈现出明显的曲线模式,例如抛物线形(二次关系)、指数形或对数形。
- 无关系 (No Relationship):数据点随机散布在整个图表中,没有形成任何可辨识的模式。这表明两个变量之间可能不存在关联。
二. 关系的方向 (Direction)
如果存在线性或类线性的关系,其方向描述了变量变化的趋势。
- 正相关 (Positive Association):当X轴变量的值增加时,Y轴变量的值也倾向于增加。数据点云从左下方向右上方倾斜。例如,一个人的学习时间和其考试成绩通常呈正相关。
- 负相关 (Negative Association):当X轴变量的值增加时,Y轴变量的值倾向于减少。数据点云从左上方向右下方倾斜。例如,商品的价格和其需求量通常呈负相关。
三. 关系的强度 (Strength)
关系的强度指数据点围绕基本形态(如直线)的紧密程度。
- 强关系 (Strong Relationship):所有数据点都非常紧密地聚集在一条假想的直线或曲线周围。这表明变量之间的关系非常明确,一个变量的值能够很好地预测另一个变量的值。
- 弱关系 (Weak Relationship):数据点分布得非常松散,虽然可能看出一个大致的趋势,但存在大量变异(variation)。一个变量对另一个变量的预测能力较差。
- 中等强度关系:介于强弱之间,数据点有一定趋势但离散度较高。
四. 异常值 (Outlier)
异常值是指那些远离数据点主体分布模式的个别数据点。它们可能是由于测量错误、数据录入错误或代表了真实但极端的情况。异常值对相关系数和回归分析的结果有显著影响,因此在分析时需要特别留意并加以研究。识别异常值的常用方法包括标准化残差检验、箱线图以及基于马氏距离的多变量异常检测。
五. 聚集 (Clustering)
数据点可能分裂成两个或多个独立的群组(簇)。这可能暗示样本来自于不同的总体(population),或者存在一个未被观察到的分类变量(categorical variable)在影响着数据。当散点图中出现明显的聚类结构时,分析者应考虑按群组分层分析,而非简单地将所有数据点混合建模。
散点图与相关性
散点图是相关性概念的视觉体现。相关系数(尤其是皮尔逊相关系数)是衡量两个变量之间线性关系强度和方向的数值指标,记为 ,其取值范围在 之间。
- 接近 表示强的正线性相关。
- 接近 表示强的负线性相关。
- 接近 表示几乎没有线性相关。
散点图的视觉模式与 的值高度对应:点越紧密地排成一条斜率为正的直线, 越接近 ;点越紧密地排成一条斜率为负的直线, 越接近 。如果点云呈圆形或随机散布, 则会趋近于 。
需要特别注意的是,皮尔逊相关系数只能捕捉线性关系。即使 ,变量之间仍可能存在强烈的非线性关系(如完美的抛物线),此时应辅以斯皮尔曼秩相关系数或距离相关系数进行检验。
重要警示:相关不等于因果 (Correlation does not imply causation)
这是数据分析中最核心的原则之一。即使散点图显示出两个变量之间存在强相关,我们也不能断定一个变量的变化是另一个变量变化的原因。两个变量可能都是由第三个未被观察的变量(称为潜变量或混淆变量,Lurking Variable / Confounding Variable)驱动的。
例如,冰淇淋销量和溺水事故数量之间存在很强的正相关。但我们不能得出"吃冰淇淋导致溺水"的结论。真实原因是潜变量"天气温度":天气炎热时,更多人去游泳(增加了溺水风险),也更多人购买冰淇淋。在计量经济学中,这种现象被称为虚假相关(spurious correlation),需要通过随机对照试验、工具变量或断点回归等方法来进行因果识别。
散点图的扩展与变种
- 散点图矩阵 (Scatter Plot Matrix / Pairs Plot):当数据集中包含多个数值变量时,可以创建一个由多个散点图组成的矩阵。矩阵中的每个单元格都是一对变量的散点图,这使得我们可以快速地一览数据集中所有变量对之间的关系。对角线位置通常放置各变量的直方图或密度估计。在R语言中,\verb|pairs()| 函数和 \verb|GGally::ggpairs()| 均可方便地绘制散点图矩阵。
- 3D散点图 (3D Scatter Plot):用于可视化三个数值变量之间的关系,将三个变量分别对应到X、Y、Z三个坐标轴上,可通过旋转视角观察三维点云的结构。
- 气泡图 (Bubble Chart):二维散点图的变体,每个点的大小由第三个数值变量的值决定,因此一个气泡图可同时展示三个变量的关系,颜色还可编码第四个分类变量。汉斯·罗斯林的Gapminder工具即经典应用。
- 添加回归线 (Regression Line):在散点图上可以叠加一条"最佳拟合线"(通常通过最小二乘法计算得出),这条线以数学方式总结了变量间的线性关系。这在回归分析中十分常见,它为我们提供了一个描述关系的模型。还可以叠加局部加权回归(LOESS)曲线来捕捉非线性趋势。
应用实例
- 经济学:绘制通货膨胀率与失业率的关系图(菲利普斯曲线),或者人均GDP与人均寿命的关系图,用于检验普雷斯顿曲线。
- 金融学:绘制单个资产收益率与市场指数收益率的关系图,以估算该资产的贝塔系数(Beta),评估其系统性风险暴露。
- 市场营销:绘制广告投入与销售额的关系图,以评估广告活动的效果,并可进一步按渠道或地区分面(facet)展示。
- 生物统计学:绘制药物剂量与患者反应(如血压降低值)的关系图,以确定剂量-效应关系,是临床试验中剂量探索研究的常规手段。
- 机器学习:在特征工程阶段,用散点图探索各特征与目标变量之间的关系,辅助判断是否需要特征变换或交互项构造。
小结
散点图以直观的几何方式揭示双变量关系的全貌——形式、方向、强度、异常值与聚类结构——是任何严谨定量分析不可跳过的第一步。从弗朗西斯·高尔顿研究父母与子女身高关系时首次引入的散点图雏形,到卡尔·皮尔逊在此基础上发展出相关系数和回归理论,散点图见证了现代统计学的诞生。在大数据与人工智能时代,散点图及其扩展依然是数据科学家最常使用的可视化手段之一,掌握其绘制与解读是通往统计思维和数据分析能力的必修之路。