ARTICLE
权重
权重 (Weight) 权重(Weight)是统计学、计量经济学和机器学习中最基础且应用最广泛的概念之一。权重本质上是一个非负的数值系数,用于衡量某个观测值、变量或成分在整体中的相对重要性或贡献程度。权重的核心思想可归纳为:并非所有数据点或信息源都同等重要,通过赋予不同元素以不同的权重,我们可以构造出更精确、更具代表性的统计量或模型。 统计学中的权重 在统计
权重 (Weight)
权重(Weight)是统计学、计量经济学和机器学习中最基础且应用最广泛的概念之一。权重本质上是一个非负的数值系数,用于衡量某个观测值、变量或成分在整体中的相对重要性或贡献程度。权重的核心思想可归纳为:并非所有数据点或信息源都同等重要,通过赋予不同元素以不同的权重,我们可以构造出更精确、更具代表性的统计量或模型。
统计学中的权重
在统计学中,权重的最基本应用是加权平均数(Weighted Mean)。给定一组观测值 及其对应的权重 ( 且不全为零),加权平均定义为:
当所有权重相等时,加权平均数退化为普通的算术平均数。加权平均数广泛应用于价格指数的编制——例如CPI(消费者价格指数)中的各类商品依据居民消费支出份额被赋予不同权重,以反映其对整体价格水平的真实影响。
抽样权重(Sampling Weights)是调查统计中的核心工具。在分层抽样或不等概率抽样中,不同个体被抽中的概率可能不同,因此必须使用抽样权重(通常取包含概率的倒数)来修正估计量,否则会导致严重的选择偏差。例如,在一项对全国居民收入的调查中,若对偏远地区居民过度抽样,则需赋予偏远地区样本较低权重,以使估计结果代表全国人口的收入分布。
加权最小二乘法(Weighted Least Squares, WLS)是处理异方差性(Heteroskedasticity)的标准方法。当回归模型的误差项方差不恒定时,普通最小二乘法(OLS)不再是最优线性无偏估计量(BLUE)。WLS 通过对每个观测值赋予与其误差方差成反比的权重————使变换后的模型满足同方差假定,从而恢复估计的有效性。在实践中,若方差函数未知,可先通过OLS估计残差,再构造可行的加权最小二乘估计量(Feasible WLS)。
计量经济学中的权重
在广义矩估计(Generalized Method of Moments, GMM)中,权重矩阵(Weighting Matrix)的选择直接影响估计量的渐近效率。GMM 估计量极小化样本矩条件的二次型 ,其中 为对称正定的权重矩阵。Hansen (1982) 证明最优权重矩阵应取矩条件协方差矩阵之逆 ,由此得到的估计量在所有GMM估计量中具有最小的渐近方差。
在处理效应(Treatment Effects)的因果推断文献中,逆概率加权(Inverse Probability Weighting, IPW)是估计平均处理效应(ATE)和处理组平均处理效应(ATT)的关键方法。IPW 通过倾向得分(Propensity Score)构造权重,使处理组和对照组的协变量分布在加权后实现平衡,从而在无混淆性(Unconfoundedness)假设下一致地估计因果效应。
在贝叶斯统计中,权重思维体现于先验信息与样本信息的加权融合:后验分布本质上是先验分布与似然函数按各自信息精度(precision)加权综合的结果。当样本量增大时,似然函数的权重逐渐增大,先验的影响则相应衰减。
经济学中的权重
在经济学中,指数理论(Index Number Theory)的核心问题即权重选择。拉氏价格指数(Laspeyres Index)以基期的消费数量为权重,而帕氏价格指数(Paasche Index)以报告期的消费数量为权重。两者之差反映了消费者因相对价格变化而产生的替代偏差(Substitution Bias)。费雪理想指数(Fisher Ideal Index)取拉氏和帕氏指数的几何平均数,兼具优越的公理性。
在金融学中,投资组合权重(Portfolio Weights)是马科维茨均值-方差模型的核心决策变量。投资者选择各资产在组合中的权重,以在给定期望收益下最小化组合方差,或在给定风险水平下最大化期望收益。资本资产定价模型(CAPM)中,市场组合的权重由各资产市值占比内生决定,构成所有风险资产的最优配置比例。
在福利经济学中,社会福利权重(Social Welfare Weights)是进行成本-收益分析时评估分配效应的关键工具。决策者对不同收入群体效用变化赋予不同权重——若赋予低收入群体更高权重,则反映了不平等厌恶(Inequality Aversion)——由此汇总的净社会收益将同时兼顾效率与公平。
机器学习中的权重
在机器学习中,权重概念渗透于几乎所有模型。线性回归和Logistic回归中的回归系数本质上即为特征权重,量化了每个特征对预测目标的边际贡献。神经网络中每一层的连接权重通过反向传播(Backpropagation)和梯度下降(Gradient Descent)迭代更新,这些权重矩阵的规模和结构决定了模型的学习能力与泛化性能。
样本权重在机器学习中也扮演重要角色。在类别不平衡(Class Imbalance)任务中,少数类样本通常被赋予较高权重以平衡损失函数,防止模型偏向多数类。集成学习中的AdaBoost算法通过动态调整样本权重——每一轮增加被误分类样本的权重、降低正确分类样本的权重——使后续弱分类器聚焦于困难样本,最终加权组合得到强分类器。在注意力机制(Attention Mechanism)中,模型自动学习输入序列中各元素的注意力权重以聚焦于最相关的信息,这已成为Transformer架构和大语言模型的核心组件。
权重的规范化与约束
无论应用场景如何,权重通常需满足一定的规范化条件。最常见的约束为权重之和等于一(),此时权重可解释为概率分布或份额。在投资组合中施加卖空限制时,权重还需满足非负约束()。权重选择本身就构成一个优化问题:如何在先验知识、数据信息和目标函数之间寻找最优平衡。
权重虽看似简单,但其科学选择与合理运用直接决定了统计推断的有效性、经济指数的代表性以及预测模型的准确性。正如统计学家George Box所言:``所有模型都是错误的,但有些是有用的''——而恰当的权重设定,往往是区分有用模型与误导性模型的关键所在。