计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (36): 134-136.
张玉芳,张 洪,熊忠阳,李文田
ZHANG Yufang,ZHANG Hong,XIONG Zhongyang,LI Wentian
摘要: 传统谱聚类的相似矩阵建立在VSM(Vector Space Model)之上,该模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象。针对这一问题,提出一种用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)来提取文本中隐含语义信息的方法,并构建文本集的相似矩阵,从语义的角度考虑了文本之间的相关性。实验结果表明,利用该方法得到的聚类精度有较大提高,结果要好于传统的谱聚类算法,从而验证了该方法的有效性。