计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (24): 52-56.DOI: 10.3778/j.issn.1002-8331.1808-0423
宋董飞,徐 华
SONG Dongfei, XU Hua
摘要: DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。