计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (26): 146-150.
杨 艳1,2,朱 戈1,范文彬1
YANG Yan1,2,ZHU Ge1,FAN Wenbin1
摘要: 从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题。现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档。提出了一种基于文档拓扑的相似性搜索算法——Hub-N,将文档相似性搜索问题转化为图搜索问题,应用相应的剪枝技术,缩小了扫描文档的范围,提高了搜索效率。通过实验验证了算法的有效性和可行性。