# 散点图 (Scatter Plot)
散点图 (Scatter Plot),又称 散布图,是{{{统计学}}}和数据可视化领域中最基本也最重要的图表之一。它通过在{{{笛卡尔坐标系}}} (Cartesian coordinate system) 中描绘一系列数据点,来展示两个{{{数值变量}}} (numerical variables) 之间的关系或关联性。散点图是进行{{{探索性数据分析}}} (Exploratory Data Analysis, EDA) 和初步检验变量间是否存在{{{相关性}}} (correlation) 的强大视觉工具。
在散点图中,每一个数据点(通常表示为一个点、圆圈或叉)代表一个独立的{{{观测值}}} (observation)。该点在坐标系中的位置由其对应的两个变量的值确定:一个变量的值决定了其在水平轴({{{X-axis}}})上的位置,另一个变量的值决定了其在垂直轴({{{Y-axis}}})上的位置。
通常,我们会将我们假设的“原因”或“预测变量”——即{{{自变量}}} (independent variable)——放在X轴上,而将我们假设的“结果”或“响应变量”——即{{{因变量}}} (dependent variable)——放在Y轴上。
## 如何解读散点图
解读散点图的目标是从点的分布模式中识别出两个变量之间的潜在关系。分析时通常关注以下几个方面:
一. 关系的形式 (Form)
观察数据点整体的排列形状,可以判断关系是线性的还是非线性的。
* 线性关系 (Linear Relationship):数据点大致沿着一条直线分布。这是最常见的模式,也是许多统计模型(如{{{线性回归}}})的基础。 * 非线性关系 (Non-linear/Curvilinear Relationship):数据点呈现出明显的曲线模式,例如抛物线形({{{二次关系}}})、指数形或对数形。 * 无关系 (No Relationship):数据点随机散布在整个图表中,没有形成任何可辨识的模式。这表明两个变量之间可能不存在关联。
二. 关系的方向 (Direction)
如果存在线性或类线性的关系,其方向描述了变量变化的趋势。
* 正相关 (Positive Association):当X轴变量的值增加时,Y轴变量的值也倾向于增加。数据点云从左下方向右上方倾斜。例如,一个人的学习时间和其考试成绩通常呈正相关。 * 负相关 (Negative Association):当X轴变量的值增加时,Y轴变量的值倾向于减少。数据点云从左上方向右下方倾斜。例如,商品的价格和其需求量通常呈负相关。
三. 关系的强度 (Strength)
关系的强度指数据点围绕基本形态(如直线)的紧密程度。
* 强关系 (Strong Relationship):所有数据点都非常紧密地聚集在一条假想的直线或曲线周围。这表明变量之间的关系非常明确,一个变量的值能够很好地预测另一个变量的值。 * 弱关系 (Weak Relationship):数据点分布得非常松散,虽然可能看出一个大致的趋势,但存在大量{{{变异}}} (variation)。一个变量对另一个变量的预测能力较差。 * 中等强度关系:介于强弱之间。
四. 异常值 ({{{Outlier}}})
异常值是指那些远离数据点主体分布模式的个别数据点。它们可能是由于测量错误、数据录入错误或代表了真实但极端的情况。异常值对{{{相关系数}}}和{{{回归分析}}}的结果有显著影响,因此在分析时需要特别留意并加以研究。
五. 聚集 (Clustering)
数据点可能分裂成两个或多个独立的群组(簇)。这可能暗示样本来自于不同的{{{总体}}} (population),或者存在一个未被观察到的{{{分类变量}}} (categorical variable) 在影响着数据。
## 散点图与相关性
散点图是相关性概念的视觉体现。{{{相关系数}}}(尤其是{{{皮尔逊相关系数}}} $r$)是衡量两个变量之间线性关系强度和方向的数值指标,其取值范围在 $[-1, 1]$ 之间。
* $r$ 接近 $+1$ 表示强的正线性相关。 * $r$ 接近 $-1$ 表示强的负线性相关。 * $r$ 接近 $0$ 表示几乎没有线性相关。
散点图的视觉模式与 $r$ 的值高度对应:点越紧密地排成一条斜率为正的直线,$r$ 越接近+1;点越紧密地排成一条斜率为负的直线,$r$ 越接近-1。如果点云呈圆形或随机散布,$r$ 则会趋近于0。
重要警示:相关不等于因果 (Correlation does not imply causation) 这是数据分析中最核心的原则之一。即使散点图显示出两个变量之间存在强相关,我们也不能断定一个变量的变化是另一个变量变化的原因。两个变量可能都是由第三个未被观察的变量(称为{{{潜变量}}}或{{{混淆变量}}} Lurking Variable/Confounding Variable)驱动的。 例如,冰淇淋销量和溺水事故数量之间存在很强的正相关。但我们不能得出“吃冰淇淋导致溺水”的结论。真实原因是潜变量“天气温度”:天气炎热时,更多人去游泳(增加了溺水风险),也更多人购买冰淇淋。
## 散点图的扩展与变种
1. 散点图矩阵 (Scatter Plot Matrix / Pairs Plot) 当数据集中包含多个数值变量时,可以创建一个由多个散点图组成的矩阵。矩阵中的每个单元格都是一对变量的散点图,这使得我们可以快速地一览数据集中所有变量对之间的关系。
2. 3D散点图 (3D Scatter Plot) 用于可视化三个数值变量之间的关系,将三个变量分别对应到X、Y、Z三个坐标轴上。
3. 气泡图 (Bubble Chart) 这是二维散点图的一个变体,其中每个点的大小由第三个数值变量的值决定。因此,一个气泡图可以同时展示三个变量的关系。有时还会用颜色来表示第四个(通常是分类)变量。
4. 添加回归线 (Regression Line) 在散点图上可以叠加一条“最佳拟合线”(通常通过{{{最小二乘法}}}计算得出),这条线以数学方式总结了变量间的线性关系。这在{{{回归分析}}}中十分常见,它为我们提供了一个描述关系的{{{模型}}}。
## 应用实例
* 经济学: 绘制{{{通货膨胀率}}}与{{{失业率}}}的关系图({{{菲利普斯曲线}}}),或者人均GDP与人均寿命的关系图。 * 金融学: 绘制单个{{{资产收益率}}}与{{{市场指数收益率}}}的关系图,以估算该资产的{{{贝塔系数}}} (Beta)。 * 市场营销: 绘制广告投入与销售额的关系图,以评估广告活动的效果。 * 自然科学: 绘制药物剂量与患者反应(如血压降低值)的关系图,以确定剂量效应关系。