摘要: 对网络流量等大规模数据,基于密度的DBSCAN聚类算法收敛时间过长、对某些流量聚类效果欠佳。在基于隐马尔科夫模型(Hidden Markov Model,HMM)的流量识别研究背景下,提出一种改进的DBSCAN算法,从减少每次区域查询次数及查询时间两方面提高算法的时间效率和准确率。并创新性地采用分治策略将新算法应用于自动构建网络协议的HMM模型。实验结果表明,改进的DBSCAN算法在保证聚类准确率的同时大大提高了时间效率,并能通过对网络流数据包进行聚类,正确完成网络协议HMM模型的自动建模。