ARTICLE
变量选择
变量选择 (Variable Selection) 变量选择→统计建模/机器学习关键步→从候选变量集中→选出最能解释/预测因变量y的子集→降维+可解释性+避过拟合。现代数据p>n→变量选择从"可选"变"必选"。 为何要做变量选择 ①奥卡姆剃刀—简模型易解、易复、易沟通。②降方差—含无关变量→模型自由度↓→估计量方差↑→预测均方误差损。③避过拟合—p大→模型记
变量选择 (Variable Selection)
变量选择→统计建模/机器学习关键步→从候选变量集中→选出最能解释/预测因变量y的子集→降维+可解释性+避过拟合。现代数据p>n→变量选择从"可选"变"必选"。
为何要做变量选择
①奥卡姆剃刀—简模型易解、易复、易沟通。②降方差—含无关变量→模型自由度↓→估计量方差↑→预测均方误差损。③避过拟合—p大→模型记噪声→泛化差。④计算效率—少变量→估快、推理快。
经典子集选择法
最优子集法:穷举2^p种组合→残差平方和最小者→p>20不可行→计算爆炸。
向前选择(Forward Selection):从空模型始→每步加F统计量最大/最显著变量→至无显著→贪心快→可能漏组合效应。
向后消元(Backward Elimination):全模型始→每步删t统计量最不显著变量→需n>p。
逐步回归(Stepwise):前+后混→每加后检可否删→双向搜索→灵活→过拟合风险高→p值失真。
信息准则法
信息准则→对极大似然值加参数惩罚→使选模平衡拟合与简。
AIC=→k参数→\hat L最大似然→惩轻→倾选复模(预测导向)。
BIC=→n>e^2时BIC惩> AIC→倾选简模(一致性→真模在候则渐近选中)。
调整R²:→加变量提R²但不一定提调整R²。
收缩与正则化
Ridge回归(L2正则化):→压系数→但不设0→不真正选变量→适多变量共线。
Lasso回归(L1正则化):→L1惩→系数连续缩→一些精确缩至0→自动变量选择。称"稀疏解"→小\lambda选入多→大\lambda大部0→交叉验证选。
弹性网(Elastic Net):L1+L2结合→→L1选变量+L2处分组效应/高相关→p>>n时最稳。
其他现代方法
SCAD(平滑剪切绝对偏差)→渐近无偏+连续+稀疏→满足Oracle性质(选对变量+估计同已知真模渐近等价)。自适应Lasso→各变量异惩→先一致估→再以倒数加权→\# Lasso系→增强稀疏。
主成分回归PCR→降维后回归→不选原变量→选主成分→适共线强场景。偏最小二乘PLS→兼考虑X对Y→预测导向。
评价与口诀
选变量法择依:主观(理论驱动→先验知识定核心→再加检)or数据(自动→交叉验证定)。核心口诀:信息准则定规模(AIC/BIC选大小)、正则化法定稀疏(Lasso/Elastic Net)、理论引导定方向(模型设定先于算法)。无免费午餐:无一法万优→需结领域知识+样本量+目标(解释vs预测)→择最适合。