2019-03-25
密度峰值聚类算法

目前根据上面博客的算法原理，可以改进的点有：

（1）上述算法对截断距离（邻域半径，为常数）过于依赖，需要事先确定其值，或不断迭代找出最优值。

想法：根据密度或数据点的最大距离将其半径确定下来，如何确定还没有想好？

（2）根据上述算法中聚类中心的特点：

2014年，Rodriguez和Laio在Science发文中指出类簇中心都处在：

<1>、局部密度比较大的位置

<2>、距离比它更大的局部密度的数据点相对较远。

（3）用手肘法确定数据集中聚类K值的个数，根据K值找出局部密度和距离都大的数据点K个作为K个初始聚类中心进行k-Means聚类。

1553567295418

如上图数据集，最右上的两个数据点为我们要找的聚类中心。

Y's Blog

scribble