Quartz 4

❯

❯

❯

2 模型评估与选择

❯

正则化

Sep 22, 20252 min read

在实际应用时，如果样本容量不远远大于样本的特征维度，很可能造成过拟合，对这种情况，我们有下面三个解决方式：

加数据
特征选择（降低特征维度）如 PCA 算法。
正则化

正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚），下面我们介绍一般情况下的两种正则化。

L 1 L 2 : w a r g min L (w) + λ ∣∣ w ∣ ∣_{1}, λ > 0 : w a r g min L (w) + λ ∣∣ w ∣ ∣_{2}^{2}, λ > 0

简介

目的：防止过拟合，增大模型的稳定性。

L = data loss \frac{1}{N} i \sum L_{i} + regularization loss λ R (W)

L：正则化强度
数据损失：拟合我们的数据的误差
正则化损失：避免在数据集上做的太好
正则化
- 目的：提高模型的泛化能力
- L1： $R (W) = \sum_{k} \sum_{l} W_{k, l}^{2}$
- L2： $R (W) = \sum_{k} \sum_{l} ∣ W_{k, l} ∣$
- 弹性网络：综合考虑L1L2， $R (W) = \sum_{k} \sum_{l} {β W_{k, l}^{2} + ∣ W_{k, l} ∣}$
- 比正则化更复杂的泛化技巧：dropout、batch normalization、stochastic depth、fractional pooling

正则化例子

L1正则化

L1正则化

L2 Ridge

L2 Ridge

Graph View

简介
正则化例子
L1正则化
L2 Ridge

Backlinks

过拟合

Created with Quartz v4.5.2 © 2025

鄂ICP备2025095675号-1

GitHub
Discord Community