计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (2): 78-85.DOI: 10.3778/j.issn.1002-8331.2012-0476
万佳,胡大裟,蒋玉明
WAN Jia, HU Dasha, JIANG Yuming
摘要: DBSCAN算法的[Eps]和[MinPts]参数需要人为设定,取值不当会导致聚类结果准确度不高,且在密度分布差异大的数据集上,由于参数的全局性,错误地应用于不同密度的簇,导致不能正确地发现簇。针对以上问题,提出一种多密度自适应参数确定算法,利用经过去噪衰减后的数据集的自身分布特性生成候选[Eps]和[MinPts]参数列表,并在簇数趋于稳定的区间内根据去噪级别选取对应的[Eps]和[MinPts]作为初始密度阈值。对在该密度阈值条件下聚类产生的噪声数据使用同样的方法生成候选参数列表,选取最优参数,得到新密度阈值,循环该步骤直到噪声数据的数量或密度阈值低于一定程度为止。将不同密度阈值下的聚类结果进行合并。实验结果表明,该算法能够自适应地选取合适的多密度阈值,并在密度分布差异大的数据集上有很好的聚类效果。