计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (10): 147-150.
陈建超1,胡桂武1,杨志华2,严桂夺3
CHEN Jianchao1,HU Guiwu1,YANG Zhihua2,YAN Guiduo3
摘要: 文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。