计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (14): 143-147.
冀素琴,石洪波
JI Suqin, SHI Hongbo
摘要: 针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。