计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (11): 58-61.
王 民,尹 超,王稚慧,要趁红,高 婧
WANG Min, YIN Chao, WANG Zhihui, YAO Chenhong, GAO Jing
摘要: 当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,且聚类效果良好。