ARTICLE

sigmoid

S型函数 (Sigmoid Function) Sigmoid函数（又称S型函数或逻辑函数）是一类具有"S"形曲线的数学函数，其核心特征是将任意实数输入映射到(0,1)或(-1,1)区间内。最经典的sigmoid函数是逻辑斯蒂函数，其定义如下：该函数图像呈单调递增的S形曲线，在x=0处取值为0.5，当x + 时趋近于1，当x - 时趋近于0。它的平滑性、可

浏览 3 更新 2026-05-25

S型函数 (Sigmoid Function)

Sigmoid函数（又称S型函数或逻辑函数）是一类具有"S"形曲线的数学函数，其核心特征是将任意实数输入映射到 $(0,1)$ 或 $(-1,1)$ 区间内。最经典的sigmoid函数是逻辑斯蒂函数，其定义如下：

\sigma(x) = \frac{1}{1 + e^{-x}}

该函数图像呈单调递增的S形曲线，在 $x=0$ 处取值为 $0.5$ ，当 $x \to +\infty$ 时趋近于1，当 $x \to -\infty$ 时趋近于0。它的平滑性、可微性以及值域的有界性，使其在多个学科中得到广泛应用。

数学性质

Sigmoid函数具有若干重要的数学性质。首先是对称性： $1 - \sigma(x) = \sigma(-x)$ ，这一关系反映了函数关于点 $(0, 0.5)$ 的中心对称特征。其次是导数的简洁表达，这是其在机器学习中被广泛使用的重要原因之一：

\sigma'(x) = \sigma(x)\,(1 - \sigma(x))

这一形式极大地简化了计算过程。当 $\sigma(x)=0$ 或 $\sigma(x)=1$ 时，导数为零；当 $\sigma(x)=0.5$ （即 $x=0$ ）时，导数取最大值 $0.25$ 。函数的二阶导数为：

\sigma''(x) = \sigma(x)\,(1 - \sigma(x))\,(1 - 2\sigma(x))

由此可知，函数在 $|x| < 1.3169$ 区域内呈近似线性增长，而远离零点时则进入饱和区。此外，sigmoid函数的反函数为对数几率函数（logit函数）：

\sigma^{-1}(y) = \ln\left(\frac{y}{1 - y}\right), \quad y \in (0,1)

这一关系建立了概率值与对数几率之间的桥梁，是逻辑回归模型的数学基础。从数值分析的角度看，sigmoid函数还具有良好的数值稳定性：对于很大的正数输入， $e^{-x}$ 趋近于零，输出趋近于1；对于很大的负数输入， $e^{-x}$ 变得极大，输出趋近于0，整个过程没有数值溢出风险。

历史背景

Sigmoid函数的历史可追溯至19世纪。1838年，比利时数学家Pierre François Verhulst在研究人口增长时首次提出了逻辑斯蒂函数，用以修正马尔萨斯的无限制增长模型。Verhulst认识到人口增长受到资源限制，因此增长率随人口规模增大而递减，由此导出了S形的增长曲线。20世纪初，逻辑斯蒂函数在生物学领域得到广泛应用。20世纪中叶，心理学家D. R. Cox将其引入统计学，提出了逻辑回归模型。在20世纪80年代，神经网络研究的复兴使得sigmoid函数成为反向传播算法中激活函数的首选方案。2010年以后，尽管ReLU在深度网络中逐渐占据主导地位，sigmoid在门控机制和概率输出中的角色依然不可替代。

在机器学习中的应用

Sigmoid函数在机器学习中有着不可替代的地位。在逻辑回归中，sigmoid函数将线性组合的输出转化为概率值，使得模型可以用于二分类任务。设线性预测值为 $z = \mathbf{w}^T \mathbf{x} + b$ ，则预测概率为：

P(y=1|\mathbf{x}) = \sigma(z)

分类边界对应 $\sigma(z)=0.5$ 即 $z=0$ 。模型通过极大似然估计求解参数，其损失函数为交叉熵损失：

\mathcal{L} = -\frac{1}{N}\sum_{i=1}^N \left[y_i \log(\sigma(z_i)) + (1-y_i)\log(1-\sigma(z_i))\right]

在神经网络的早期发展中，sigmoid曾是最常用的激活函数之一，因为它满足以下要求：非线性、可微、输出有界。在循环神经网络（RNN）和门控机制（如LSTM和GRU）中，sigmoid作为门控函数仍被广泛使用，其输出值介于0与1之间的特性恰好对应"开启"与"关闭"的信息流控制。LSTM单元包含遗忘门、输入门和输出门三种sigmoid门控，它们共同决定了信息的留存与更新。

此外，在广义线性模型中，sigmoid作为连接函数将均值与线性预测器联系起来；在深度学习的输出层，sigmoid用于多标签分类问题中对每个类别独立输出概率。在深度强化学习中，sigmoid也常用于将Q值映射为动作选择的概率分布。

在经济学中的应用

在经济学中，sigmoid函数被用于扩散模型和技术采纳研究。新技术的市场渗透率往往呈现出S形增长曲线：初期增长缓慢，达到临界点后加速扩散，最终趋于饱和。这一过程可以用以下形式的sigmoid函数描述：

P(t) = \frac{L}{1 + e^{-k(t - t_0)}}

其中 $L$ 为饱和水平， $k$ 为增长率参数， $t_0$ 为拐点时间。这种模型广泛应用于创新扩散理论（Rogers, 1962）和Bass扩散模型中。经济中常见的例子包括：互联网的普及率、智能手机的市场渗透、电动汽车的销量增长等，这些现象均呈现出从初始缓慢增长到快速扩张再到饱和的S形轨迹。在经济学中，sigmoid函数还用于刻画消费者选择中的阈值效应：当产品价格降至某阈值以下，需求量突然加速增长；以及制度变迁的非线性特征：制度变革初期阻力较大，一旦跨越临界点则迅速推广。

在生物学中的应用

Sigmoid函数最早的使用可追溯至19世纪的生物生长曲线研究。在种群生态学中，逻辑斯蒂增长模型描述了受到资源限制的种群增长过程：

N(t) = \frac{KN_0}{N_0 + (K - N_0)e^{-rt}}

该模型与sigmoid函数形式等价，其中 $K$ 为环境容纳量， $r$ 为内在增长率。模型的关键特征是在种群规模较小时增长近似指数，随着接近环境容纳量，增长速度逐渐放缓至零。在神经科学中，sigmoid函数用于模拟神经元激活函数——突触后电位与放电频率之间的关系呈现典型的S形曲线特征。在酶动力学和药理学中，剂量-反应曲线也常用sigmoid函数拟合，其中希尔方程是其重要变体。希尔方程引入了一个指数参数 $n$ 来调整曲线的陡峭程度：

E = \frac{E_{\max} [D]^n}{EC_{50}^n + [D]^n}

这一形式使得sigmoid能够灵活地描述协同结合效应等复杂生物过程。

变体与推广

在机器学习实践中，经典sigmoid函数的梯度消失问题催生了多种变体。双曲正切函数 $\tanh(x)$ 是值域为 $(-1,1)$ 的sigmoid变体，其形式为：

\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} = 2\sigma(2x) - 1

由于输出以零为中心， $\tanh$ 在实践中通常优于标准sigmoid，因为零中心输出有助于缓解梯度更新方向的振荡问题。Softmax函数是sigmoid向多分类问题的推广，将 $K$ 维实数向量映射为概率分布：

\text{Softmax}(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}

当 $K=2$ 时，softmax退化为sigmoid。此外，硬Sigmoid（hard sigmoid）和HardTanh通过线性分段近似模拟sigmoid形状，以减少计算开销。硬Sigmoid定义为 $\max(0, \min(1, 0.2x + 0.5))$ 。GELU和Swish等现代激活函数也融合了sigmoid的元素。例如，Swish函数 $f(x) = x \cdot \sigma(x)$ 结合了线性变换与sigmoid的非线性特性，在深度学习中展现出优于ReLU的性能。

局限性与替代方案

尽管sigmoid函数历史悠久且应用广泛，它存在几个显著局限性。第一是梯度消失问题：当输入绝对值较大时，导数趋近于零，使得深层网络的参数更新极为缓慢。在深度网络中，这一效应被层数放大，导致靠近输入层的权重几乎无法被训练。第二是非零中心输出：标准sigmoid输出始终为正，这会导致后续层的梯度全部为正或全部为负，造成优化过程的振荡。第三是计算开销：指数运算相比ReLU等简单函数更为耗时。第四是饱和区域的硬约束：函数在两端几乎不变化，使得网络容量受限。

这些局限性促使ReLU（线性整流单元）及其变体在现代深度卷积网络中取代了sigmoid的地位。ReLU定义为 $f(x) = \max(0, x)$ ，计算简单且能缓解梯度消失问题。然而在需要概率输出、门控机制和平滑非线性的场景中，sigmoid函数仍然是不可替代的核心工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。