数据挖掘-聚类分析【2】


本节内容:

1:理解聚类的分类【分割聚类、层次聚类】

2:进行分割聚类和层次聚类的具体方法

一、理解聚类的分类【分割聚类、层次聚类】

二、进行分割聚类和层次聚类的具体方法

分割聚类

给定n个数据对象的数据集D,及要生成的簇数k,划分算法把数据对象组成k(k<=n)个分区,其中每个分区代表一个簇。而且k满足以下条件:
1:每一个簇至少包含一个对象
2:每一个对象属于且仅属于一个簇。

常用方法:
k-均值
k-中心值(k均值对于孤立的值的敏感的【求均值哪些极大值极小值影响大】为了解决这个我们
就引入了中心值的思想)
  该算法不采用簇中的平均值作为参照点,可以选用簇中最中心的对象即中心点作为参照点。
  它跟k-均值的求法差不多,区别:只有样本空间的数据点可以作为中心点

层次聚类主要分为两大类:

凝聚聚类:

初始时,把每个数据点都看成一个簇

每步合并最近的簇,直到得到一个簇为止

分裂聚类:

初始时,把所有数据点都看成一簇

每步分割一个簇,知道每个簇只包含一个数据点

  • 传统方法的层次聚类使用相似性距离矩阵:每次合并或分割一个簇

R