ARTICLE

Sigmoid函数

Sigmoid函数 Sigmoid函数是数学和统计学中一类具有 S 形曲线特征的函数族,其中最经典的形式为逻辑函数 (logistic function): 该函数将整个实数域 (- , + ) 平滑地映射至开区间 (0, 1),在 x = 0 处取值为 0.5,并以该点为中心对称: (-x) = 1 - (x)。当 x + 时 (x) 1,当 x - 时

浏览 3 更新 2026-07-15

Sigmoid函数

Sigmoid函数是数学和统计学中一类具有 S 形曲线特征的函数族,其中最经典的形式为逻辑函数 (logistic function):

σ(x)=11+ex\sigma(x) = \frac{1}{1 + e^{-x}}

该函数将整个实数域 (,+)(-\infty, +\infty) 平滑地映射至开区间 (0,1)(0, 1),在 x=0x = 0 处取值为 0.5,并以该点为中心对称:σ(x)=1σ(x)\sigma(-x) = 1 - \sigma(x)。当 x+x \to +\inftyσ(x)1\sigma(x) \to 1,当 xx \to -\inftyσ(x)0\sigma(x) \to 0,两端均以指数速率趋近,形成光滑的饱和特性。

Sigmoid 函数的一个重要数学性质是其导数可用函数自身表达:

σ(x)=σ(x)(1σ(x))\sigma'(x) = \sigma(x)(1 - \sigma(x))

这一简洁的递推关系在梯度下降反向传播算法中具有计算上的便利——一旦算出前向传播的激活值 σ(x)\sigma(x),导数即可由一次乘法和一次减法完成,无需重复计算指数项。

与 Logit 和 Logistic 分布的关系

Sigmoid 函数与Logit函数互为反函数。若 p=σ(x)p = \sigma(x),则:

x=logit(p)=ln(p1p)x = \operatorname{logit}(p) = \ln\left(\frac{p}{1 - p}\right)

即 logit 将概率 p(0,1)p \in (0, 1) 映射回实数域的对数几率 (log-odds)。这一互逆关系构成了Logistic回归的核心:线性预测子 xβ\mathbf{x}'\boldsymbol{\beta} 通过 sigmoid 转化为概率,而概率通过 logit 变换为线性形式。

从概率视角看,sigmoid 函数正是标准Logistic分布的累积分布函数 (CDF):

F(x)=11+exF(x) = \frac{1}{1 + e^{-x}}

对应概率密度函数 f(x)=ex(1+ex)2=σ(x)(1σ(x))f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} = \sigma(x)(1 - \sigma(x)),呈对称钟形,尾部比正态分布更厚。

在经济学与计量经济学中的应用

微观计量经济学中,sigmoid 函数是二元选择模型的核心构件。Logit模型假设潜变量 yi=xiβ+εiy_i^* = \mathbf{x}_i'\boldsymbol{\beta} + \varepsilon_i 中误差项 εi\varepsilon_i 服从标准 logistic 分布,从而:

Pr(yi=1xi)=σ(xiβ)=exiβ1+exiβ\Pr(y_i = 1 \mid \mathbf{x}_i) = \sigma(\mathbf{x}_i'\boldsymbol{\beta}) = \frac{e^{\mathbf{x}_i'\boldsymbol{\beta}}}{1 + e^{\mathbf{x}_i'\boldsymbol{\beta}}}

Probit模型(假设正态误差)相比,logit 模型具有计算简便和几率比解释直观的优势——系数 βj\beta_j 可解释为"保持其他变量不变时,xjx_j 每增加一单位,几率 (p/(1p)p/(1-p)) 乘以 eβje^{\beta_j}"。

机器学习神经网络中,sigmoid 曾是最常用的激活函数,将神经元输出的线性组合压缩至概率尺度,使网络输出可解释为概率。尽管在深层网络中已大量被ReLU取代以避免梯度消失问题,sigmoid 仍广泛用于二分类问题的输出层和门控循环单元 (GRU)、LSTM 中的门机制。在经济学中的离散选择实验信用评分模型和违约概率预测中,sigmoid 的 Logit 形式依然是工业标准。