ARTICLE
损失函数
损失函数 (Loss Function) 损失函数 (Loss Function),亦称误差函数 (Error Function),是机器学习、统计决策理论和优化理论中的核心概念,用于量化预测模型的预测值 y 与真实值 y 之间的偏差程度。损失函数的值越小,表明模型预测越精确;值为零时预测与真实值完全一致。在监督学习中,模型训练的本质即为通过梯度下降等优化算
损失函数 (Loss Function)
损失函数 (Loss Function),亦称误差函数 (Error Function),是机器学习、统计决策理论和优化理论中的核心概念,用于量化预测模型的预测值 与真实值 之间的偏差程度。损失函数的值越小,表明模型预测越精确;值为零时预测与真实值完全一致。在监督学习中,模型训练的本质即为通过梯度下降等优化算法最小化损失函数,驱动参数向最优方向更新。
形式化定义
设损失函数 将真实值 与预测值 映射至非负实数:。对于包含 个样本的数据集,定义成本函数 ,模型训练即求解 。
回归问题的损失函数
均方误差 (MSE / L2 损失):,为最常用的回归损失。其对大误差施以平方级惩罚,在高斯噪声假设下与最大似然估计等价。MSE 处处可微且为凸函数,便于梯度优化。
平均绝对误差 (MAE / L1 损失):,对异常值更为稳健。MAE 在零点不可微,但可通过次梯度方法处理。
胡贝尔损失 (Huber Loss):结合 MSE 与 MAE 的优点,在 时采用平方损失(保持可微),在 时切换为线性损失(控制异常值影响),参数 控制切换阈值。
分类问题的损失函数
0-1 损失:,直接衡量分类错误率。因非凸且不可微,难以用于梯度优化,通常仅作为评估指标。
交叉熵损失 (Cross-Entropy Loss):对二分类 ,是逻辑回归和神经网络中的标准选择。其对错误且自信的预测施加极大惩罚,引导模型输出校准概率。
合页损失 (Hinge Loss):,用于支持向量机,目标为最大化分类间隔。当样本被正确分类且距离足够大时损失为零。
损失函数、成本函数与目标函数
三者关系密切但层次有别:损失函数衡量单样本误差,成本函数为全体样本的平均损失,目标函数则为成本函数与正则化项之和(),正则化项用于约束模型复杂度、防止过拟合。
损失函数的深层意义
损失函数的选择蕴含深刻的统计决策理论内涵:不同的损失函数对应不同的风险偏好和稳健性要求。在贝叶斯决策框架下,最小化后验期望损失决定了最优估计量——平方损失对应后验均值,绝对损失对应后验中位数,0-1 损失对应后验众数。在现代深度学习中,损失函数的设计已从简单的 MSE 和交叉熵扩展至对比学习的对比损失、生成对抗网络的对抗损失以及变分自编码器的 ELBO 损失等丰富形态,反映出损失函数作为优化目标与模型设计的核心纽带地位。