2019-03-25
密度峰值聚类算法
目前根据上面博客的算法原理,可以改进的点有:
(1)上述算法对截断距离(邻域半径,为常数)过于依赖,需要事先确定其值,或不断迭代找出最优值。
想法:根据密度或数据点的最大距离将其半径确定下来,如何确定还没有想好?
(2)根据上述算法中聚类中心的特点:
2014年,Rodriguez和Laio在Science发文中指出类 簇中心都处在:
<1>、局部密度比较大的位置1>
<2>、距离比它更大的局部密度的数据点 相对较远。2>
(3)用手肘法确定数据集中聚类K值的个数,根据K值找出局部密度和距离都大的数据点K个作为K个初始聚类中心进行k-Means聚类。

如上图数据集,最右上的两个数据点为我们要找的聚类中心。
Y's Blog
