计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (13): 317-324.DOI: 10.3778/j.issn.1002-8331.2211-0072
周成龙,陈玉明,朱益冬
ZHOU Chenglong, CHEN Yuming, ZHU Yidong
摘要: K均值聚类属于无监督学习,具有简单易用、可解释性强和聚类效果佳的优点。然而,其算法收敛速度慢,参数难以确定,易陷入局部解。为了克服K均值聚类的固有缺陷,结合粒计算理论,提出了一种新型的聚类模型:粒K均值聚类算法。样本在单特征上粒化成粒子,多特征上的粒子形成粒向量;进一步定义多种粒距离公式,用来度量粒子之间的距离。根据粒距离度量,提出一种粒K均值聚类方法,并设计粒K均值聚类算法。样本粒化是在全部样本空间中进行相似度比较,反映了样本的全局特性,使得聚类收敛迭代次数较少,更容易得到全局最优解。采用多个UCI公开数据集进行实验,从收敛速度、K值影响与聚类效果多方面进行比较,其结果表明所提出的K均值聚类方法具有收敛速度快及聚类效果佳的优点。