摘要: 从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA)。CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合。在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%-52%的主题漂移率,而且可以发现与查询相关的多个主题。