计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (33): 141-143.DOI: 10.3778/j.issn.1002-8331.2008.33.044
王 强1,张永奎2
WANG Qiang1,ZHANG Yong-kui2
摘要: 针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度计算。最后,使用这5个相似度作为特征,使用SVM进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改善系统的性能。