计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (20): 135-138.
邢长征,谷 浩
XING Changzheng, GU Hao
摘要: 现有的基于密度优化初始聚类中心的k-means算法存在聚类中心的搜索范围大、消耗时间久以及聚类结果对孤立点敏感等问题,针对这些问题,提出了一种基于平均密度优化初始聚类中心的k-means算法adk-means。该算法将数据集中的孤立点划分出来,计算出剩余数据集样本的平均密度,孤立点不参与聚类过程中各类所含样本均值的计算;在大于平均密度的密度参数集合中选择聚类中心,根据最小距离原则将孤立点分配给离它最近的聚类中心,直至将数据集完整分类。实验结果表明,这种基于平均密度优化初始聚类中心的k-means算法比现有的基于密度的k-means算法有更快的收敛速度,更强的稳定性及更高的聚类精度,消除了聚类结果对孤立点的敏感性。