梯度下降gradient descent

梯度下降是一种用于寻找函数最小值的优化算法。
在机器学习中,我们用它在最小化损失函数 loss function,目的是让模型预测尽量接近真实值。

“顺着最陡的下坡路走”,一步步接近最优解。

梯度gradient

多维函数在当前点的“最快上升方向”

梯度下降

我们要找最小点,顺着梯度的反方向走。
Pasted image 20250509014859.png
步长与学习率learning rate有关,如果学习率过大可能会导致跳过最小点或发散,学习率太小收敛太慢。