从一阶泰勒展开推导梯度下降 一阶泰勒展开: f(x)≈f(x0)+(x−x0)f’(x0) f(x+ϵ)=f(x)+ϵf′(x)ϵ=−ηf′(x) f(x−ηf′(x))=f(x)+(ηf′(x))f′(x)=f(x)−ηf′(x)<f(x) 这样要使得f(x)变小,只需要每次更新:x=x−ηf′(x),当然η要很小