计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (15): 127-131.DOI: 10.3778/j.issn.1002-8331.2010.15.038
尹建君1,王 乐2
YIN Jian-jun1,WANG Le2
摘要: 针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVP k-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDP k-means算法进行比较,DVP k-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。
中图分类号: