[ 机器学习 - 吴恩达 ] 单变量线性回归 | 2-5 直观理解梯度下降


repeat until convergence {
\(\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\)??\((for\ j = 0\ and\ j = 1\))
}
\(\alpha\): 学习率

如果学习率太小,梯度下降将很慢

如果学习率很大,梯度下降会越过最小值。可能不会收敛,甚至发散

? 就算学习率是固定的,梯度下降仍会收敛到局部最小值。

这是因为:

? 当接近一个局部最小值时,梯度下降幅度将自动变小,因此,不需要随时间自动减少\(\alpha\)

相关