Sigmoid函数
Sigmoid函数是数学和统计学中一类具有 S 形曲线特征的函数族,其中最经典的形式为逻辑函数 (logistic function):
σ(x)=1+e−x1
该函数将整个实数域 (−∞,+∞) 平滑地映射至开区间 (0,1),在 x=0 处取值为 0.5,并以该点为中心对称:σ(−x)=1−σ(x)。当 x→+∞ 时 σ(x)→1,当 x→−∞ 时 σ(x)→0,两端均以指数速率趋近,形成光滑的饱和特性。
Sigmoid 函数的一个重要数学性质是其导数可用函数自身表达:
σ′(x)=σ(x)(1−σ(x))
这一简洁的递推关系在梯度下降和反向传播算法中具有计算上的便利——一旦算出前向传播的激活值 σ(x),导数即可由一次乘法和一次减法完成,无需重复计算指数项。
与 Logit 和 Logistic 分布的关系
Sigmoid 函数与Logit函数互为反函数。若 p=σ(x),则:
x=logit(p)=ln(1−pp)
即 logit 将概率 p∈(0,1) 映射回实数域的对数几率 (log-odds)。这一互逆关系构成了Logistic回归的核心:线性预测子 x′β 通过 sigmoid 转化为概率,而概率通过 logit 变换为线性形式。
从概率视角看,sigmoid 函数正是标准Logistic分布的累积分布函数 (CDF):
F(x)=1+e−x1
对应概率密度函数 f(x)=(1+e−x)2e−x=σ(x)(1−σ(x)),呈对称钟形,尾部比正态分布更厚。
在经济学与计量经济学中的应用
在微观计量经济学中,sigmoid 函数是二元选择模型的核心构件。Logit模型假设潜变量 yi∗=xi′β+εi 中误差项 εi 服从标准 logistic 分布,从而:
Pr(yi=1∣xi)=σ(xi′β)=1+exi′βexi′β
与Probit模型(假设正态误差)相比,logit 模型具有计算简便和几率比解释直观的优势——系数 βj 可解释为"保持其他变量不变时,xj 每增加一单位,几率 (p/(1−p)) 乘以 eβj"。
在机器学习和神经网络中,sigmoid 曾是最常用的激活函数,将神经元输出的线性组合压缩至概率尺度,使网络输出可解释为概率。尽管在深层网络中已大量被ReLU取代以避免梯度消失问题,sigmoid 仍广泛用于二分类问题的输出层和门控循环单元 (GRU)、LSTM 中的门机制。在经济学中的离散选择实验、信用评分模型和违约概率预测中,sigmoid 的 Logit 形式依然是工业标准。