ARTICLE

loss function

损失函数 (Loss Function) 损失函数是机器学习、统计学与最优化理论中的核心概念，用于量化模型预测值与真实值之间的不一致程度。损失函数将一个预测结果映射为一个非负实数（或更一般地，一个实数），该数值的大小反映了当前模型在单个样本或整体分布上的"代价"。在监督学习的训练过程中，经验风险最小化（Empirical Risk Minimization,

浏览 0 更新 2025-10-27

损失函数 (Loss Function)

损失函数是机器学习、统计学与最优化理论中的核心概念，用于量化模型预测值与真实值之间的不一致程度。损失函数将一个预测结果映射为一个非负实数（或更一般地，一个实数），该数值的大小反映了当前模型在单个样本或整体分布上的"代价"。在监督学习的训练过程中，经验风险最小化（Empirical Risk Minimization, ERM）框架将损失函数在训练集上的均值作为优化目标，通过梯度下降或其变体迭代求解模型参数。

损失函数的选择直接影响模型的训练动态、收敛性质以及最终泛化性能，是机器学习工作流中最关键的设计决策之一。

形式化定义

设输入空间为 $\mathcal{X}$ ，输出空间为 $\mathcal{Y}$ ，模型为 $f_\theta : \mathcal{X} \to \mathcal{Y}$ ，参数为 $\theta \in \Theta$ 。一个损失函数 $\ell : \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_{\geq 0}$ 对任意真实标签 $y \in \mathcal{Y}$ 和预测值 $\hat{y} = f_\theta(x)$ 赋予一个损失值 $\ell(y, \hat{y})$ 。

在统计决策理论中，损失函数与风险函数密切相关。给定数据生成分布 $P(X, Y)$ ，模型 $f_\theta$ 的期望风险（Expected Risk）为：

R(\theta) = \mathbb{E}_{(X,Y) \sim P}\left[\ell(Y, f_\theta(X))\right]

而训练集 $\{(x_i, y_i)\}_{i=1}^n$ 上的经验风险（Empirical Risk）为：

\hat{R}_n(\theta) = \frac{1}{n} \sum_{i=1}^{n} \ell(y_i, f_\theta(x_i))

经验风险最小化正是以 $\hat{R}_n(\theta)$ 作为优化目标，期望在样本量足够大时 $\hat{R}_n(\theta)$ 能良好逼近 $R(\theta)$ 。

回归问题中的损失函数

平方损失 (Squared Loss / $L_2$ Loss)

\ell_{\text{MSE}}(y, \hat{y}) = (y - \hat{y})^2

平方损失是回归分析中最经典的损失函数，对应最小二乘法。其优势在于处处可微、梯度线性衰减（ $\nabla_{\hat{y}} \ell = 2(\hat{y} - y)$ ），且与高斯噪声假设下的最大似然估计等价。然而，平方损失对离群值高度敏感——残差被平方放大后，少数异常点可主导梯度更新，导致模型被"拉偏"。

绝对损失 (Absolute Loss / $L_1$ Loss)

\ell_{\text{MAE}}(y, \hat{y}) = |y - \hat{y}|

绝对损失对离群值具有更强的稳健性，因为残差不再被平方放大。其在 $\hat{y} = y$ 处不可微，梯度恒为 $\pm 1$ （符号取决于残差方向），这导致训练后期梯度不再衰减，优化过程可能在最优解附近震荡。

Huber 损失

为兼顾平方损失的光滑性与绝对损失的稳健性，Huber损失在残差较小时采用平方项、较大时采用线性项：

\ell_{\text{Huber}}(y, \hat{y}; \delta) = \begin{cases} \frac{1}{2}(y - \hat{y})^2, & \text{若 } |y - \hat{y}| \leq \delta \\ \delta \cdot |y - \hat{y}| - \frac{1}{2}\delta^2, & \text{否则} \end{cases}

其中 $\delta > 0$ 为阈值超参数，控制平方区与线性区的分界。Huber 损失处处可微（包括分界点，其一阶导数连续），在实践中广泛应用于鲁棒回归。

Log-cosh 损失

\ell_{\text{log-cosh}}(y, \hat{y}) = \log(\cosh(\hat{y} - y))

Log-cosh 损失近似于 Huber 损失的平滑变体：小残差时接近 $\frac{1}{2}(y - \hat{y})^2$ ，大残差时接近 $|\hat{y} - y| - \log 2$ 。其处处二阶可微，适合需要 Hessian 信息的优化方法。

分类问题中的损失函数

0-1 损失 (Zero-One Loss)

\ell_{0-1}(y, \hat{y}) = \mathbf{1}[y \neq \hat{y}]

0-1 损失是最直接衡量分类错误的指标，即"分对为 0，分错为 1"。然而，0-1 损失非凸、非连续、梯度处处为零（或未定义），无法直接用于梯度优化。实际训练中，各类代理损失函数（Surrogate Loss）作为 0-1 损失的凸上界被广泛使用。

交叉熵损失 (Cross-Entropy Loss / Log Loss)

对于二分类问题，记真实标签 $y \in \{0, 1\}$ ，预测概率 $\hat{p} \in [0, 1]$ ：

\ell_{\text{CE}}(y, \hat{p}) = -y \log \hat{p} - (1 - y) \log(1 - \hat{p})

对于多分类（ $K$ 类），记真实标签的 one-hot 编码为 $\mathbf{y} \in \{0,1\}^K$ ，预测概率分布为 $\hat{\mathbf{p}}$ （通常经 softmax 归一化）：

\ell_{\text{CE}}(\mathbf{y}, \hat{\mathbf{p}}) = -\sum_{k=1}^{K} y_k \log \hat{p}_k

交叉熵损失源于信息论中 KL 散度的最小化：最小化 $\ell_{\text{CE}}$ 等价于最小化真实分布 $P$ 与模型分布 $Q_\theta$ 之间的 $D_{\text{KL}}(P \| Q_\theta)$ 。在分类标签服从多项分布的假设下，交叉熵最小化等价于最大似然估计。其梯度形式 $\nabla_{\hat{p}_k} \ell = -y_k / \hat{p}_k$ 意味着：当模型对正确类别信心不足时梯度很大（强校正），信心很高时梯度衰减，这一性质带来了良好的收敛行为。

合页损失 (Hinge Loss)

\ell_{\text{hinge}}(y, s) = \max(0, 1 - y \cdot s)

其中 $y \in \{-1, +1\}$ 为标签， $s = f_\theta(x) \in \mathbb{R}$ 为模型输出的分数（非概率）。Hinge 损失是支持向量机 (SVM) 的核心损失函数，其在 $y \cdot s \geq 1$ （分类正确且置信度足够高）时损失为零，鼓励模型不仅分对还要"分得开"（margin 最大化）。Hinge 损失在 $y \cdot s = 1$ 处不可导，优化需借助次梯度方法。

指数损失 (Exponential Loss)

\ell_{\text{exp}}(y, s) = \exp(-y \cdot s)

指数损失是AdaBoost等 boosting 算法的默认损失。其惩罚随负 margin 指数增长，对误分类样本的惩罚极为严厉，因此对噪声和离群值敏感。

Focal Loss

\ell_{\text{focal}}(y, \hat{p}; \gamma) = -(1 - \hat{p}_t)^\gamma \log \hat{p}_t

其中 $\hat{p}_t = \hat{p}$ 若 $y = 1$ ，否则 $\hat{p}_t = 1 - \hat{p}$ ； $\gamma \geq 0$ 为聚焦参数。Focal Loss 在目标检测（如 RetinaNet）中被提出，通过在交叉熵上乘以调制因子 $(1 - \hat{p}_t)^\gamma$ ，降低已分类良好的简单样本的损失权重，使训练聚焦于难分类样本，从而缓解类别极度不平衡问题。

概率视角：损失函数与最大似然

损失函数的选择等价于对数据条件分布 $P(Y \mid X)$ 的参数假设。这一对应关系是沟通频率统计与机器学习优化的桥梁：

\begin{aligned} \text{平方损失} &\iff Y \mid X \sim \mathcal{N}(f_\theta(X), \sigma^2) &&\text{（高斯噪声）} \\ \text{绝对损失} &\iff Y \mid X \sim \text{Laplace}(f_\theta(X), b) &&\text{（拉普拉斯噪声）} \\ \text{交叉熵（二分类）} &\iff Y \mid X \sim \text{Bernoulli}(\hat{p}_\theta(X)) &&\text{（伯努利分布）} \\ \text{交叉熵（多分类）} &\iff Y \mid X \sim \text{Multinomial}(\hat{\mathbf{p}}_\theta(X)) &&\text{（多项分布）} \end{aligned}

因此，选择损失函数不是任意的，而是对数据生成过程的建模声明。这一洞察也解释了为什么某些损失函数在特定场景下失效——当数据分布违背隐含假设时，优化方向自然偏离。

正则化与结构风险

在经验风险最小化的基础上，通常引入正则化项以控制模型复杂度，防止过拟合。这构成结构风险最小化框架：

\mathcal{L}(\theta) = \frac{1}{n} \sum_{i=1}^{n} \ell(y_i, f_\theta(x_i)) \;+\; \lambda \cdot \Omega(\theta)

其中 $\Omega(\theta)$ 为惩罚项（如 $L_1$ 范数促进稀疏、 $L_2$ 范数抑制参数过大）， $\lambda > 0$ 平衡数据拟合与模型复杂度。从贝叶斯统计的角度看，正则化等价于对参数施加先验分布： $L_2$ 正则对应高斯先验， $L_1$ 正则对应拉普拉斯先验。

工程实践中的选择准则

任务对齐：回归取连续型损失（MSE、MAE、Huber），分类取概率型损失（交叉熵）或 margin 型损失（Hinge）。
离群值敏感度：数据含大量离群值时优先 MAE 或 Huber，避免 MSE 被异常点劫持。
类别不平衡：长尾分类可选用 Focal Loss 或加权交叉熵，防止模型被头部类别主导。
优化可行性：优先选择凸函数且一阶可微的损失函数；非凸损失（如 0-1 损失）需借助代理损失。
概率输出需求：若需要校准的概率估计，应使用交叉熵而非 hinge 损失，因为后者不直接输出概率。
梯度数值稳定性：交叉熵配合 softmax 在数值上比"MSE + sigmoid"更稳定（避免 sigmoid 两端梯度消失）。

前沿扩展

对比损失 (Contrastive Loss)：在度量学习与自监督学习中，对比损失拉近正样本对、推远负样本对，是SimCLR、CLIP等模型的核心。
三元组损失 (Triplet Loss)：用于人脸识别和嵌入学习，要求锚点-正例距离小于锚点-负例距离加 margin。
GAN 中的对抗损失：生成对抗网络中，生成器与判别器的损失函数构成零和博弈，常用的有 minimax loss、Wasserstein loss 等。
感知损失 (Perceptual Loss)：在图像生成与风格迁移中，不直接比较像素而比较 CNN 高层特征的差异，更贴近人类感知。

损失函数作为连接数据、模型与优化的枢纽，其设计体现了对问题结构的深刻理解。从经典的最小二乘到当代的自监督对比学习，损失函数的演进史本身就是一部机器学习发展史的缩影。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。