ARTICLE
逻辑回归 (Logistic Regression)
逻辑回归 (Logistic Regression) 逻辑回归是统计学和机器学习中一种广泛使用的分类方法,用于建模二分类(或多分类)因变量与一个或多个自变量之间的关系。尽管名称中含有"回归"二字,逻辑回归本质上是分类模型,其核心是使用逻辑函数(sigmoid 函数)将线性预测值映射到 (0, 1) 区间,输出事件发生的概率。 模型形式 对于二分类问题,设因变
逻辑回归 (Logistic Regression)
逻辑回归是统计学和机器学习中一种广泛使用的分类方法,用于建模二分类(或多分类)因变量与一个或多个自变量之间的关系。尽管名称中含有"回归"二字,逻辑回归本质上是分类模型,其核心是使用逻辑函数(sigmoid 函数)将线性预测值映射到 区间,输出事件发生的概率。
模型形式
对于二分类问题,设因变量 ,逻辑回归模型假设:
其中 为逻辑函数(Sigmoid 函数), 为截距, 为回归系数向量。
等价地,对数几率(log-odds)是自变量的线性函数:
这一形式将逻辑回归纳入广义线性模型 (GLM) 框架,其连接函数为 logit 函数。
参数估计
逻辑回归的参数通常通过极大似然估计 (MLE) 获得。对于 个独立观测 ,对数似然函数为:
由于该函数是凹函数,可通过牛顿-拉夫森法或梯度下降法迭代求解全局最优解。不像线性回归,逻辑回归的似然方程没有闭式解析解。
系数解释
逻辑回归的系数 解释为:在其他变量不变的情况下, 每增加一个单位,对数几率增加 。等价地,几率比 (odds ratio) 表示 每增加一个单位,事件发生几率的变化倍数。
模型评估
逻辑回归常用的评估指标包括:
- 混淆矩阵:真阳性、假阳性、真阴性、假阴性的计数表。
- ROC曲线与AUC:以不同阈值的真阳性率对假阳性率作图,AUC(曲线下面积)衡量模型的整体区分能力。
- 对数似然与偏差 (Deviance):衡量模型拟合优度。
- Hosmer-Lemeshow检验:检验模型校准度。
多分类扩展
对于多分类问题,逻辑回归可以通过以下方式扩展:
- 多项逻辑回归 (Multinomial Logistic Regression):使用 softmax 函数同时预测所有类别的概率。
- 有序逻辑回归 (Ordinal Logistic Regression):当类别具有自然排序时,使用累积 logit 或比例几率模型。
正则化
在高维数据或不平衡样本中,可引入正则化项防止过拟合:L1 正则化( Lasso)可产生稀疏解并实现变量选择;L2 正则化(岭回归)将系数向零收缩;弹性网 (Elastic Net) 结合两者优势。
与线性回归的比较
| 特征 | 线性回归 | 逻辑回归 | |---|---|---| | 因变量类型 | 连续 | 二分类/多分类 | | 输出范围 | | | | 模型形式 | | | | 参数估计 | 最小二乘法 (OLS) | 极大似然估计 (MLE) |