计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (28): 177-180.
王 鹏,张永奎,张 彦,刘 睿
WANG Peng,ZHANG Yong-kui,ZHANG Yan,LIU Rui
摘要: 网页检索结果中,用户经常会得到内容相同的冗余页面。提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。