在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:
-
加数据
-
特征选择(降低特征维度)如 PCA 算法。
-
正则化
正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚),下面我们介绍一般情况下的两种正则化。
简介
目的:防止过拟合,增大模型的稳定性。
- L:正则化强度
- 数据损失:拟合我们的数据的误差
- 正则化损失:避免在数据集上做的太好
- 正则化
- 目的:提高模型的泛化能力
- L1:
- L2:
- 弹性网络:综合考虑L1L2,
- 比正则化更复杂的泛化技巧:dropout、batch normalization、stochastic depth、fractional pooling