吴恩达老师机器学习课程chapter07——聚类

本文是非计算机专业新手的自学笔记，高手勿喷。

本文仅作速查备忘之用，对应吴恩达(AndrewNg)老师的机器学期课程第十三章。

缺少重要推演，只能作为入门了解。

基本概念

这是一种无监督学习，即是说样本不含有标签(y),只有x。

K均值法的思路如下：

如果想将已有的样本分为两类，首先，在空间中任意生成两个点，作为聚类中心(cluster centroid)；
接着，分别计算每个点与两个聚类中心的距离，并依据距离的大小分为两类；
然后，分别计算两类样本的算术平均值，并将这两个均值作为新的聚类中心；
之后不停循环，直到获得满意的结果。

K均值法的具体算法如下：

K均值法的优化目标如下：

其中J也被称为失真代价函数。

"Elbow Method"：可以选择"elbow"处的K值作为聚类数。很多时候不能靠这种方法解决。

知识学习机器学习吴恩达