ARTICLE

损失函数

损失函数 (Loss Function) 损失函数 (Loss Function),亦称误差函数 (Error Function),是机器学习、统计决策理论和优化理论中的核心概念,用于量化预测模型的预测值 y 与真实值 y 之间的偏差程度。损失函数的值越小,表明模型预测越精确;值为零时预测与真实值完全一致。在监督学习中,模型训练的本质即为通过梯度下降等优化算

浏览 87 更新 2025-10-26

损失函数 (Loss Function)

损失函数 (Loss Function),亦称误差函数 (Error Function),是机器学习统计决策理论优化理论中的核心概念,用于量化预测模型的预测值 y^ \hat{y} 与真实值 y y 之间的偏差程度。损失函数的值越小,表明模型预测越精确;值为零时预测与真实值完全一致。在监督学习中,模型训练的本质即为通过梯度下降等优化算法最小化损失函数,驱动参数向最优方向更新。

形式化定义

设损失函数 L(y,y^) L(y, \hat{y}) 将真实值 y y 与预测值 y^ \hat{y} 映射至非负实数:L(y,y^)R0 L(y, \hat{y}) \to \mathbb{R}_{\ge 0} 。对于包含 N N 个样本的数据集,定义成本函数 J=1Ni=1NL(yi,y^i) J = \frac{1}{N}\sum_{i=1}^N L(y_i, \hat{y}_i) ,模型训练即求解 θ=argminθJ(θ) \theta^* = \arg\min_\theta J(\theta)

回归问题的损失函数

均方误差 (MSE / L2 损失)L(y,y^)=(yy^)2 L(y, \hat{y}) = (y - \hat{y})^2 ,为最常用的回归损失。其对大误差施以平方级惩罚,在高斯噪声假设下与最大似然估计等价。MSE 处处可微且为凸函数,便于梯度优化。

平均绝对误差 (MAE / L1 损失)L(y,y^)=yy^ L(y, \hat{y}) = |y - \hat{y}| ,对异常值更为稳健。MAE 在零点不可微,但可通过次梯度方法处理。

胡贝尔损失 (Huber Loss):结合 MSE 与 MAE 的优点,在 rδ |r| \le \delta 时采用平方损失(保持可微),在 r>δ |r| > \delta 时切换为线性损失(控制异常值影响),参数 δ \delta 控制切换阈值。

分类问题的损失函数

0-1 损失L(y,y^)=1(yy^) L(y, \hat{y}) = \mathbf{1}(y \neq \hat{y}) ,直接衡量分类错误率。因非凸且不可微,难以用于梯度优化,通常仅作为评估指标。

交叉熵损失 (Cross-Entropy Loss):对二分类 L(y,p^)=[ylogp^+(1y)log(1p^)] L(y, \hat{p}) = -[y\log\hat{p} + (1-y)\log(1-\hat{p})] ,是逻辑回归神经网络中的标准选择。其对错误且自信的预测施加极大惩罚,引导模型输出校准概率。

合页损失 (Hinge Loss)L(y,y^)=max(0,1yy^) L(y, \hat{y}) = \max(0, 1 - y\cdot\hat{y}) ,用于支持向量机,目标为最大化分类间隔。当样本被正确分类且距离足够大时损失为零。

损失函数、成本函数与目标函数

三者关系密切但层次有别:损失函数衡量单样本误差,成本函数为全体样本的平均损失,目标函数则为成本函数与正则化项之和(目标函数=成本函数+λΩ(θ) \text{目标函数} = \text{成本函数} + \lambda \cdot \Omega(\theta) ),正则化项用于约束模型复杂度、防止过拟合

损失函数的深层意义

损失函数的选择蕴含深刻的统计决策理论内涵:不同的损失函数对应不同的风险偏好和稳健性要求。在贝叶斯决策框架下,最小化后验期望损失决定了最优估计量——平方损失对应后验均值,绝对损失对应后验中位数,0-1 损失对应后验众数。在现代深度学习中,损失函数的设计已从简单的 MSE 和交叉熵扩展至对比学习的对比损失、生成对抗网络的对抗损失以及变分自编码器的 ELBO 损失等丰富形态,反映出损失函数作为优化目标与模型设计的核心纽带地位。