摘要: 网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。本文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。
罗永莲 张永奎. 基于发布时间的新闻网页去重方法研究[J]. 计算机工程与应用, 2007, 43(6): 119-121.
YongLian Luo. Research on Duplicated News Webpages Deletion Method Based on The Issue Time[J]. Computer Engineering and Applications, 2007, 43(6): 119-121.