计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (1): 188-193.DOI: 10.3778/j.issn.1002-8331.2004-0016
潘成胜,张斌,吕亚娜,杜秀丽,邱少明
PAN Chengsheng, ZHANG Bin, LYU Yana, DU Xiuli, QIU Shaoming
摘要:
针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并对精英个体进行深度探索以增加灰狼种群的多样性,避免早熟收敛现象的发生;将粒子群位置更新思想与灰狼位置更新结合,降低灰狼优化算法陷入局部极值的风险;与K-Means算法结合进行文本聚类。所提算法与K-Means算法、GWO-KMeans以及IPSK-Means算法相比,其准确率、召回率和F值平均都有明显提高,文本聚类结果更可靠。