简介
兼顾了批量梯度下降的计算效率和随机梯度下降的速度。是机器学习的不二之选,在深度学习中,小批次梯度下降就是随机梯度下降的代名词。
- 小批量:每一步选少量样本
- 学习率:此模型的学习率会随时间不断衰减
细节
批次多少合适
- 更大的批量会计算更精确的梯度,但是回报却是小于线性的。
- 极小的批量通常难以充分利用多核结构。当批量低于某个数值时,计算时间不会减少。
- 批量处理中的所有样本可以并行处理,但是内存消耗和批量大小会成正比。
- 在使用GPU时,通常使用2的幂数作为批量大小可以获得更少的运行时间。一般,2的幂数取值范围是32~256。16有时在尝试大模型时使用。
为什么要降低学习率
- 在梯度下降初期,能接受较大的步长(学习率),以较快的速度进行梯度下降。
- 当收敛时,我们希望步长小一点,并且在最小值附近小幅摆动。
常见学习率衰减方法:
为衰减率, 为epoch数量, 为常数, 为初始学习率。