L1与L2正则化：原理差异与机器学习应用-代码聚汇网

L1与L2正则化：原理差异与机器学习应用

猫球

1. L1与L2正则化的本质差异

在机器学习模型训练中，我们常常面临过拟合的问题。正则化技术通过向损失函数添加惩罚项来控制模型复杂度，其中L1和L2是最常用的两种方法。虽然它们都能防止过拟合，但背后的数学机理和实际效果却大相径庭。

1.1 数学定义对比

L1正则化（又称Lasso回归）在原始损失函数基础上添加权重的绝对值之和：

code复制J_L1 = J + λΣ|w_i|

而L2正则化（Ridge回归）添加的是权重的平方和：

code复制J_L2 = J + λΣw_i²

这里J是原始损失函数，λ控制正则化强度，w_i表示模型参数。这个看似微小的数学差异，却导致了完全不同的优化行为。

关键理解：λ的选择至关重要。过大的λ会导致模型欠拟合，过小则无法有效防止过拟合。实践中通常通过交叉验证来确定最佳λ值。

1.2 概率视角的解读

从贝叶斯统计的角度看：

L1对应拉普拉斯先验分布，其概率密度函数为f(x) = (1/2b)exp(-|x-μ|/b)
L2对应高斯先验分布，密度函数为f(x) = (1/√(2π)σ)exp(-(x-μ)²/(2σ²))

这种先验分布的差异解释了为什么L1倾向于产生稀疏解——拉普拉斯分布在零点有更高的概率密度，使得参数更可能被压缩为零。

2. 几何直观与特征选择机制

2.1 约束空间的形状差异

想象一个二维参数空间(w₁, w₂)：

L1的约束区域是菱形（高维下是多面体）
L2的约束区域是圆形（高维下是球体）

当优化问题的解（损失函数等高线与约束区域的切点）位于坐标轴上时，对应的特征权重就会变为零。由于L1的菱形有尖锐的顶点，这种"角点解"出现的概率远高于L2的圆形约束。

2.2 实际案例演示

假设我们有一个线性回归问题，使用波士顿房价数据集。当应用L1正则化时，随着λ增大：

某些特征的系数会率先变为零
重要的特征会保持非零值
最终可能只剩下5-6个关键特征

而L2正则化下，所有系数会平滑地缩小，但很少会完全归零。这就是为什么L1被称为"特征选择"工具，而L2是"权重衰减"方法。

3. 优化过程的动态特性

3.1 梯度更新规则对比

L1的梯度更新：

code复制w_i ← w_i - η(∂J/∂w_i + λ·sign(w_i))

L2的梯度更新：

code复制w_i ← w_i - η(∂J/∂w_i + 2λw_i)

关键区别在于：

L1的梯度是常数（±λ），无论w_i大小如何
L2的梯度与w_i成正比，当w_i接近零时梯度也趋近于零

3.2 稀疏性产生的数学机制

对于L1：

当|w_i|很小时，若|∂J/∂w_i| < λ，权重会被推向零
一旦跨过零点，由于sign函数的不连续性，权重可能被"卡"在零
这种现象称为"精确零解"

对于L2：

梯度随w_i减小而减弱
理论上需要无限步才能达到真正的零
实践中权重会变得很小但很少精确为零

4. 实际应用中的选择策略

4.1 何时使用L1

特征数量远大于样本量时（基因数据、文本数据）
需要模型可解释性，识别关键特征时
希望得到紧凑的模型部署时

4.2 何时使用L2

特征间存在高度相关性时
所有特征都可能有用时
需要稳定数值解时

4.3 弹性网络(Elastic Net)

实践中常结合两者优势：

code复制J_enet = J + λ₁Σ|w_i| + λ₂Σw_i²

这种混合方法既能进行特征选择，又能处理相关特征，但需要调节两个超参数。

5. 实现细节与调参技巧

5.1 标准化的重要性

在使用正则化前，必须对特征进行标准化：

使所有特征处于相同尺度
避免因量纲不同导致不公平的惩罚
常用方法：(x - mean)/std

5.2 正则化路径分析

绘制系数随λ变化的曲线：

从λ_max（所有系数为零）开始
逐渐减小λ，观察系数变化
选择使验证集误差最小的λ

5.3 计算效率考量

L1：适合使用坐标下降法
L2：适合使用梯度下降或解析解
对于大数据集，可考虑随机优化方法

6. 常见误区与解决方案

6.1 误区一：认为L1总能找到最优特征子集

实际上：

当特征高度相关时，L1可能随机选择其中一个
解决方案：使用弹性网络或稳定性选择

6.2 误区二：忽视正则化对偏差的影响

正则化会增加模型偏差：

需要通过交叉验证平衡偏差-方差
在训练误差和验证误差间寻找平衡点

6.3 误区三：忽略特征工程的重要性

正则化不能替代好的特征工程：

无信息的特征仍会干扰模型
应该先进行合理的特征选择和构造

7. 高级话题延伸

7.1 稀疏编码与字典学习

L1正则化在以下领域有深入应用：

图像处理中的稀疏表示
神经科学的激活模式识别
信号处理的压缩感知

7.2 结构化稀疏正则化

扩展形式包括：

Group Lasso（组稀疏）
Fused Lasso（相邻变量相似）
适用于特定领域问题的定制正则化

7.3 深度学习中的正则化

虽然现代深度学习更多使用：

Dropout
Batch Normalization
早停法

但L1/L2仍可用于：

卷积核的稀疏化
注意力权重的约束
模型压缩和量化

在实际项目中，我通常会先尝试L2作为基线，当特征数量特别多时转向L1。对于特别重要但特征数量适中的问题，弹性网络往往能给出最佳平衡。记住，正则化只是工具箱中的一种方法，应该与其他技术（如交叉验证、集成学习）配合使用。