聚类


1. 简介

在无监督学习算法,应用最广泛的算法是聚类。

还有其他的无监督学习算法如下:

* 密度估计

* 异常检测

聚类可以将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。

通过这这样的划分,每个簇对于于一些潜在的类别。

2. k均值算法

算法流程

step 1. 随机产生k个分类特征的中心点(cluster center)

step2. 计算数据点到中心点的距离(distance)

step 3. 数据点到哪个中心点最近就分到哪个类(cluster)

step 4. 迭代:更新中心点位置,重新计算距离并分配类别,直到总体距离最小

------------恢复内容结束------------

相关