ARTICLE

变量选择

变量选择 (Variable Selection) 变量选择→统计建模/机器学习关键步→从候选变量集中→选出最能解释/预测因变量y的子集→降维+可解释性+避过拟合。现代数据p>n→变量选择从"可选"变"必选"。 为何要做变量选择 ①奥卡姆剃刀—简模型易解、易复、易沟通。②降方差—含无关变量→模型自由度↓→估计量方差↑→预测均方误差损。③避过拟合—p大→模型记

浏览 5 更新 2026-06-28

变量选择 (Variable Selection)

变量选择→统计建模/机器学习关键步→从候选变量集中→选出最能解释/预测因变量y的子集→降维+可解释性+避过拟合。现代数据p>n→变量选择从"可选"变"必选"。

为何要做变量选择

奥卡姆剃刀—简模型易解、易复、易沟通。②方差—含无关变量→模型自由度↓→估计量方差↑→预测均方误差损。③避过拟合—p大→模型记噪声→泛化差。④计算效率—少变量→估快、推理快。

经典子集选择法

最优子集法:穷举2^p种组合→残差平方和最小者→p>20不可行→计算爆炸。

向前选择(Forward Selection):从空模型始→每步加F统计量最大/最显著变量→至无显著→贪心快→可能漏组合效应。

向后消元(Backward Elimination):全模型始→每步删t统计量最不显著变量→需n>p。

逐步回归(Stepwise):前+后混→每加后检可否删→双向搜索→灵活→过拟合风险高→p值失真。

信息准则法

信息准则→对极大似然值加参数惩罚→使选模平衡拟合与简。

AIC=2k2ln(L^)2k-2\ln(\hat L)→k参数→\hat L最大似然→惩轻→倾选复模(预测导向)。

BIC=klnn2ln(L^)k\ln n-2\ln(\hat L)→n>e^2时BIC惩> AIC→倾选简模(一致性→真模在候则渐近选中)。

调整R²1(1R2)(n1)/(nk1)1-(1-R^2)(n-1)/(n-k-1)→加变量提R²但不一定提调整R²。

收缩与正则化

Ridge回归L2正则化):minyXβ22+λβ22\min\|y-X\beta\|_2^2+\lambda\|\beta\|_2^2→压系数→但不设0→不真正选变量→适多变量共线。

Lasso回归L1正则化):minyXβ22+λβ1\min\|y-X\beta\|_2^2+\lambda\|\beta\|_1→L1惩→系数连续缩→一些精确缩至0→自动变量选择。称"稀疏解"→小\lambda选入多→大\lambda大部0→交叉验证λ\lambda

弹性网Elastic Net):L1+L2结合→minyXβ22+λ1β1+λ2β22\min\|y-X\beta\|_2^2+\lambda_1\|\beta\|_1+\lambda_2\|\beta\|_2^2→L1选变量+L2处分组效应/高相关→p>>n时最稳。

其他现代方法

SCAD(平滑剪切绝对偏差)→渐近无偏+连续+稀疏→满足Oracle性质(选对变量+估计同已知真模渐近等价)。自适应Lasso→各变量异λj\lambda_j惩→先一致估→再以倒数加权→\# Lasso系→增强稀疏。

主成分回归PCR→降维后回归→不选原变量→选主成分→适共线强场景。偏最小二乘PLS→兼考虑X对Y→预测导向。

评价与口诀

选变量法择依:主观(理论驱动→先验知识定核心→再加检)or数据(自动→交叉验证λ\lambda)。核心口诀:信息准则定规模(AIC/BIC选大小)、正则化法定稀疏(Lasso/Elastic Net)、理论引导定方向(模型设定先于算法)。无免费午餐:无一法万优→需结领域知识+样本量+目标(解释vs预测)→择最适合。