吴恩达老师机器学习课程chapter07——聚类
吴恩达老师机器学习课程chapter07——聚类
本文是非计算机专业新手的自学笔记,高手勿喷。
本文仅作速查备忘之用,对应吴恩达(AndrewNg)老师的机器学期课程第十三章。
缺少重要推演,只能作为入门了解。
目录
- 吴恩达老师机器学习课程chapter07——聚类
- 基本概念
- K均值法
- 几点注意
基本概念
这是一种无监督学习,即是说样本不含有标签(y),只有x。
K均值法
K均值法的思路如下:
如果想将已有的样本分为两类,首先,在空间中任意生成两个点,作为聚类中心(cluster centroid);
接着,分别计算每个点与两个聚类中心的距离,并依据距离的大小分为两类;
然后,分别计算两类样本的算术平均值,并将这两个均值作为新的聚类中心;
之后不停循环,直到获得满意的结果。
K均值法的具体算法如下:
K均值法的优化目标如下:
其中J也被称为失真代价函数。
几点注意
- 初始化时,应该有 聚类中心数K<样本数m。
- 最终收敛结果可能不一致,即最优问题得到了不同的局部最优解。可以尝试初始化多次,之后选择J最小的作为解。
-
常常是数据可视化之后手动选择聚类数目。
-
可以通过J与K的关系选择K:
"Elbow Method":可以选择"elbow"处的K值作为聚类数。很多时候不能靠这种方法解决。