简介

兼顾了批量梯度下降的计算效率和随机梯度下降的速度。是机器学习的不二之选,在深度学习中,小批次梯度下降就是随机梯度下降的代名词。

  • 小批量:每一步选少量样本
  • 学习率:此模型的学习率会随时间不断衰减

细节

批次多少合适

  1. 更大的批量会计算更精确的梯度,但是回报却是小于线性的。
  2. 极小的批量通常难以充分利用多核结构。当批量低于某个数值时,计算时间不会减少。
  3. 批量处理中的所有样本可以并行处理,但是内存消耗和批量大小会成正比。
  4. 在使用GPU时,通常使用2的幂数作为批量大小可以获得更少的运行时间。一般,2的幂数取值范围是32~256。16有时在尝试大模型时使用。

为什么要降低学习率

  1. 在梯度下降初期,能接受较大的步长(学习率),以较快的速度进行梯度下降。
  2. 收敛时,我们希望步长小一点,并且在最小值附近小幅摆动。

常见学习率衰减方法:

为衰减率, 为epoch数量, 为常数, 为初始学习率。