数据挖掘-聚类分析【2】
本节内容:
1:理解聚类的分类【分割聚类、层次聚类】
2:进行分割聚类和层次聚类的具体方法
一、理解聚类的分类【分割聚类、层次聚类】
二、进行分割聚类和层次聚类的具体方法
分割聚类
给定n个数据对象的数据集D,及要生成的簇数k,划分算法把数据对象组成k(k<=n)个分区,其中每个分区代表一个簇。而且k满足以下条件: 1:每一个簇至少包含一个对象 2:每一个对象属于且仅属于一个簇。 常用方法: k-均值 k-中心值(k均值对于孤立的值的敏感的【求均值哪些极大值极小值影响大】为了解决这个我们 就引入了中心值的思想) 该算法不采用簇中的平均值作为参照点,可以选用簇中最中心的对象即中心点作为参照点。 它跟k-均值的求法差不多,区别:只有样本空间的数据点可以作为中心点
层次聚类主要分为两大类:
凝聚聚类:
初始时,把每个数据点都看成一个簇
每步合并最近的簇,直到得到一个簇为止
分裂聚类:
初始时,把所有数据点都看成一簇
每步分割一个簇,知道每个簇只包含一个数据点
- 传统方法的层次聚类使用相似性或距离矩阵:每次合并或分割一个簇