在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:

  1. 加数据

  2. 特征选择(降低特征维度)如 PCA 算法。

  3. 正则化

正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚),下面我们介绍一般情况下的两种正则化。

简介

目的:防止过拟合,增大模型的稳定性。

  • L:正则化强度
  • 数据损失:拟合我们的数据的误差
  • 正则化损失:避免在数据集上做的太好
  • 正则化
    • 目的:提高模型的泛化能力
    • L1:
    • L2:
    • 弹性网络:综合考虑L1L2,
    • 比正则化更复杂的泛化技巧:dropout、batch normalization、stochastic depth、fractional pooling

正则化例子

L1正则化

L1正则化

L2 Ridge

L2 Ridge