计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (12): 141-143.DOI: 10.3778/j.issn.1002-8331.2009.12.046
樊 勇1,郑家恒2
FAN Yong1,ZHENG Jia-heng2
摘要: 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。