• 模型过度适应训练数据,导致在新的、未见过的数据上表现较差的现象。
  • 训练误差小,泛化误差大
    • 在训练数据上表现得非常好,但在测试数据或实际应用中可能表现不佳。
  • 通常发生在模型具有过多参数或复杂度过高的情况下。模型可能会过度记住训练数据的细节和噪声,而忽略了数据的整体趋势。
  • 原因 1. 模型复杂度过高 2. 数据不足 3. 特征选择 4. 噪声
  • 三个解决方式:
    1. 加数据
    2. 特征选择(降低特征维度)如 PCA 算法。
    3. 正则化

问题描述

在预测分析时,第三张图就是过拟合,因为它拟合了所有的数据点,这并不能保证这个模型能在新测试用例上表现良好。

过拟合欠拟合的直观比较

操在乱军中,只听得西凉军大叫:“穿红袍的是曹操!”操就马上急脱下红袍。又听得大叫:“长髯者是曹操!”操惊慌,掣所佩刀断其髯。超遂令人叫拏短髯者是曹操。操闻之,即扯旗角包颈而逃。 @张大帅 这里假设曹操是训练集,其他人是测试集;“穿红袍的是曹操!”在训练集上表现优异,但在测试集上错的离谱,过度用穿红袍来定义曹操的特征,导致过拟合。同理可得后两种情况