[ 机器学习 - 吴恩达 ] 单变量线性回归 | 2-5 直观理解梯度下降

repeat until convergence {
\(\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\)??\((for\ j = 0\ and\ j = 1\))
}
\(\alpha\): 学习率

如果学习率太小，梯度下降将很慢

如果学习率很大，梯度下降会越过最小值。可能不会收敛，甚至发散

? 就算学习率是固定的，梯度下降仍会收敛到局部最小值。

这是因为：

? 当接近一个局部最小值时，梯度下降幅度将自动变小，因此，不需要随时间自动减少\(\alpha\)。

吴恩达-ML教程

[ 机器学习 - 吴恩达 ] 单变量线性回归 | 2-5 直观理解梯度下降

相关

标签