计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (10): 167-169.

• 数据库与信息处理 • 上一篇    下一篇

改进的快速模糊C-均值聚类算法

陈松生 王蔚   

  1. 南京师范大学教育科学学院教育技术系机器学习与认知实验室 广东工业大学自动化学院
  • 收稿日期:2006-09-15 修回日期:1900-01-01 出版日期:2007-04-01 发布日期:2007-04-01
  • 通讯作者: 陈松生

Modified Fast Fuzzy C-Means Clustering Algorithm

  • Received:2006-09-15 Revised:1900-01-01 Online:2007-04-01 Published:2007-04-01

摘要: 为解决模糊C-均值(FCM)聚类算法在大数据量中存在的计算量大、运行时间过长的问题,提出了一种改进方法:先用多次随机取样聚类得到的类中心作为FCM算法的初始类中心,以减少FCM算法收敛所需的迭代次数;接着通过数据约减,压缩参与迭代运算的数据集,减少每次迭代过程的运算时间。该方法使FCM算法运算速度大大提高,且不影响算法的聚类效果。

关键词: 模糊聚类分析, 模糊C-均值, 多次随机取样, 数据约减

Abstract: The fuzzy c-means (FCM) clustering algorithm requires a long time, due to processing the large data set. This paper presents a method to speed up the FCM algorithm using cluster centers obtained by the multi-times random sampling clustering as the initial cluster centers for the FCM algorithm to reduce the number of iterations required for convergence, and for optimization of the data set to reduce the time for each iteration. This method enormously accelerates the FCM algorithm while maintaining the clustering accuracy.

Key words: fuzzy clustering analysis, fuzzy c-means, multi-times random sampling, data reduction