Home

Y's Blog

Salted fish without dreams

Home Notes About Github

2019-03-25
密度峰值聚类算法

基于密度峰值的聚类(DPCA)

目前根据上面博客的算法原理,可以改进的点有:

(1)上述算法对截断距离(邻域半径,为常数)过于依赖,需要事先确定其值,或不断迭代找出最优值。

​ 想法:根据密度或数据点的最大距离将其半径确定下来,如何确定还没有想好?

(2)根据上述算法中聚类中心的特点:

​ 2014年,Rodriguez和Laio在Science发文中指出类 簇中心都处在:

​ <1>、局部密度比较大的位置

​ <2>、距离比它更大的局部密度的数据点 相对较远。

(3)用手肘法确定数据集中聚类K值的个数,根据K值找出局部密度和距离都大的数据点K个作为K个初始聚类中心进行k-Means聚类。

1553567295418

如上图数据集,最右上的两个数据点为我们要找的聚类中心。


Y's Blog

scribble

Home Notes About Github