计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (24): 78-87.DOI: 10.3778/j.issn.1002-8331.2302-0037
吕鸿章,杨易扬,杨戈平,巩志国
LYU Hongzhang, YANG Yiyang, YANG Geping, GONG Zhiguo
摘要: 密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法在应对大规模聚类时效率不高。[k]近邻密度支配域小团簇加速技巧可以很好地改善该短板,但存在代表点代表能力不足的问题,从而影响聚类质量。代表团采样策略可作为上述问题的改进方式。由此形成的新算法不仅继承了原有密度支配域小团簇加速技巧的高效特性,还保证了聚类的质量。算法构建[k]近邻图。再利用[k]近邻图进行核密度估计并构建若干个密度支配域。对各密度支配域分别从高低密度区域采样支配域代表团。利用代表团的近邻关系计算域间相似度。将各支配域视为新样本点,执行DPC算法完成聚类。实验证明,引入代表团策略对DPC算法有一定的提升,聚类效果比部分密度聚类算法更好。