吴恩达老师机器学习课程chapter11——大规模机器学习


吴恩达老师机器学习课程chapter11——大规模机器学习

本文是非计算机专业新手的自学笔记,高手勿喷。

本文仅作速查备忘之用,对应吴恩达(AndrewNg)老师的机器学期课程第十七章。

这是这次整理笔记的最后一次整理。

吴恩达老师的课程现在看来大部分很通俗易懂,但是代价就是缺少许多数学证明。

许多部分用来学习了解入门就比较合适,但是想要深究就不得不离开严格证明了,这就是这门课的局限了。

这门课后面还有一些没有整理,因为那部分更多是简单介绍,更缺少深入分析,就不整理了。


目录
  • 吴恩达老师机器学习课程chapter11——大规模机器学习
    • 随机梯度下降(Stochastic gradient descent)
    • 小批量梯度下降法(Mini-batch gradient descent)
    • 梯度下降是否收敛?


在进行大规模机器学习之前,应该先通过学习曲线判断是否需要增加更多的样本。

随机梯度下降(Stochastic gradient descent)

批量梯度下降法(Batch gradient descent):

“批量”是指每一次迭代都要考虑所有数据。

随机梯度下降法则避免了大规模累加操作,节省了时间。每一次迭代中只针对一个样本,每次都会改进一点。其优化轨迹并不总是指向最优解,会曲折迂回的向最优解收敛。

小批量梯度下降法(Mini-batch gradient descent)

与随机梯度法不一样的是,随机梯度法每次迭代只针对一个样本,而小批量梯度下降法每次针对一小组样本。

梯度下降是否收敛?

针对梯度下降法, 在实际工作中,可以通过绘图的方法查看是否收敛。

在随机梯度下降法中,举例来说,可以在每1000次迭代之后,计算前1000次的代价函数值,依次绘出函数图像,依次判断学习率大小是否合适。

可也以让学习率随着迭代增加而减少,保证收敛效果。