ARTICLE
mean
均值 (Mean) 均值 (Mean),在统计学中也常称 平均数 (Average),是描述 数据集 (Data Set) 集中趋势 (Central Tendency) 最常用的统计量之一。均值定义为所有观测值之和除以观测值的个数,其数学表达式为: 其中 x_1, x_2, , x_n 为样本观测值,n 为样本量, x 为样本均值。在 总体 (Popula
均值 (Mean)
均值 (Mean),在统计学中也常称 平均数 (Average),是描述 数据集 (Data Set) 集中趋势 (Central Tendency) 最常用的统计量之一。均值定义为所有观测值之和除以观测值的个数,其数学表达式为:
其中 为样本观测值, 为样本量, 为样本均值。在 总体 (Population) 层面,总体均值通常记作 。
算术均值 (Arithmetic Mean)
上述公式定义的正是 算术均值,也是最广为人知的均值形式。它适用于数值型数据(定距尺度以上),且对 极端值 (Outliers) ——极端大或极端小的数值——较为敏感。例如,在一组收入数据 中,均值为 ,远高于大多数个体的实际收入,这正反映了均值对极端值的拉偏效应。因此,当数据呈 偏态分布 (Skewed Distribution) 或存在明显极端值时,中位数 (Median) 常被推荐作为补充或替代。
几何均值 (Geometric Mean)
几何均值 定义为 个正数的乘积的 次方根:
几何均值广泛应用于增长率、收益率等比率数据的平均计算。例如,一项资产连续三年的收益率分别为 、、,则年均收益率应采用几何均值而非算术均值:,这准确反映了实际累积收益。算术均值在此时会高估真实增长率,这一现象在 金融学 (Finance) 和 投资学 (Investment) 中至关重要。几何均值永远不大于算术均值,当且仅当所有观测值相等时两者相等。
调和均值 (Harmonic Mean)
调和均值 定义为观测值倒数的算术平均的倒数:
调和均值适用于平均比率或平均速率的情境。典型的例子是平均速度:若某人以 行驶一段路程,再以 原路返回,则全程平均速度既不是 (算术均值),亦非几何均值,而是调和均值 。在 机器学习 (Machine Learning) 中,调和均值也常用于 F1分数 (F1 Score) 的计算——F1分数是 精确率 (Precision) 和 召回率 (Recall) 的调和均值,旨在平衡两者。调和均值不大于几何均值,几何均值不大于算术均值,三者构成著名的 均值不等式 (Inequality of Means)。
总体均值与样本均值
在 推断统计学 (Inferential Statistics) 中,区分 总体均值 和 样本均值 至关重要。总体均值是描述总体分布特征的 参数 (Parameter),而样本均值是由样本数据计算的 统计量 (Statistic)。根据 大数定律 (Law of Large Numbers),当样本量增大时,样本均值以概率收敛于总体均值。中心极限定理 (Central Limit Theorem) 进一步表明,无论总体分布形态如何,当样本量足够大时,样本均值的 抽样分布 (Sampling Distribution) 近似服从 正态分布 (Normal Distribution),这一性质是许多 参数检验 (Parametric Test) 和 置信区间 (Confidence Interval) 的理论基础。
样本均值也是 总体均值 的 无偏估计量 (Unbiased Estimator),即 。它的 方差 (Variance) 为 ,其中 为总体方差,表明增大样本量可提高估计精度。
截尾均值 (Trimmed Mean)
为克服算术均值对极端值的敏感性,截尾均值 在排序后去除一定比例的最大值和最小值,再对剩余数据计算均值。例如, 截尾均值剔除两端各 的数据。截尾均值在 稳健统计 (Robust Statistics) 中占有一席之地,是兼顾均值效率与中位数稳健性的折中方案。体育评分(如体操、跳水)中常见的"去掉一个最高分、去掉一个最低分"的做法,本质上即截尾均值的特例。
加权均值 (Weighted Mean)
当各观测值的权重不同时,采用 加权均值:
加权均值在 调查统计 (Survey Statistics) 中用于处理 分层抽样 (Stratified Sampling) 中的不等概率,在 指数编制(如 消费者物价指数 CPI)中用于将不同商品价格按消费权重汇总,也在 教育评价 中用于计算 加权平均分 (Weighted Grade Point Average)。普通算术均值可视为加权均值的特例——当所有 时两者等价。
均值的数学性质
均值作为统计量具备若干重要的数学性质。首先,所有观测值与均值的离差之和为零:,这意味着均值是数据的"平衡点"。其次,均值使离差平方和最小化:对于任意常数 ,有 ,这一性质直接构成了 最小二乘法 (Ordinary Least Squares) 的理论基础。第三,均值具有线性变换性质:若 ,则 ,这一性质极大简化了数据标准化与尺度变换后的计算。
均值与其他集中趋势度量
均值、中位数 (Median) 和 众数 (Mode) 是描述集中趋势的三大统计量。在 对称分布 (Symmetric Distribution) 中三者相等;在 右偏分布 (Right-Skewed Distribution) 中均值大于中位数大于众数;在 左偏分布 (Left-Skewed Distribution) 中则相反。这一关系可通过 皮尔逊偏度系数 (Pearson's Skewness Coefficient) 量化:。均值利用全部数据信息,效率最高但对极端值敏感;中位数仅依赖排序位置,稳健但效率较低;众数适用于名义尺度数据。实际应用中需根据数据特征与分析目的合理选择。
在 描述统计学 (Descriptive Statistics) 的五数概括法 (Five-Number Summary) 中,中位数与四分位数组合呈现数据的分布形态,而均值则常与 标准差 (Standard Deviation) 配对使用,以均值±标准差的形式反映数据的集中与离散程度。
均值在经济学与金融学中的应用
在 经济学 (Economics) 中,预期值 (Expected Value) 本质上就是概率加权均值。马科维茨投资组合理论 (Markowitz Portfolio Theory) 用 资产收益率 (Asset Return) 的均值衡量预期收益,将其与 方差 (Variance) 一同作为投资决策的核心维度。在 行为经济学 (Behavioral Economics) 中,前景理论 (Prospect Theory) 发现个体在决策中对均值(预期值)的参考权重可能与客观概率存在偏差,体现了 决策权重 (Decision Weight) 的非线性特征。
在 回归分析 (Regression Analysis) 中,最小二乘法 (Least Squares Method) 的本质是寻找使 残差 (Residual) 均值最小化的参数估计,即条件均值函数 的估计。方差分析 (ANOVA) 的核心则是比较不同组别间的均值差异是否显著大于组内变异。
均值的局限与替代
尽管均值是使用最广泛的统计量,但其局限性不可忽视:
- 对极端值敏感:单一个极端值即可大幅改变均值,使结果失实。
- 不适用于名义数据:对分类变量(如性别、职业)计算均值无意义。
- 对偏态分布的代表性差:收入数据常呈右偏态,中位数往往更能代表"典型"个体。
因此,实际数据分析中常将均值与 中位数、众数 (Mode)、标准差 (Standard Deviation) 及 四分位数 (Quartile) 结合报告,以全面刻画数据分布特征。
均值的计算与编程实现
在实际数据分析中,均值可通过多种工具快速计算。在 Python 中可使用 \texttt{numpy.mean()} 或 \texttt{statistics.mean()};在 R语言 (R Language) 中直接调用 \texttt{mean()} 函数;在 Excel 中使用 \texttt{AVERAGE()} 函数。对于大型数据集,分布式计算框架如 MapReduce 也可高效计算均值。值得注意的是,浮点数求和时的 数值精度 (Numerical Precision) 问题在大规模数据中不可忽视,可选择 \texttt{math.fsum()} 等精确求和函数或采用 卡汉求和算法 (Kahan Summation Algorithm) 降低舍入误差。
综上,均值是统计学中最基本、最重要的概念之一,从基础描述到高级推断均扮演核心角色。理解各类均值的适用条件及其与中位数、众数的区别,是正确开展数据分析的起点。