计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (2): 116-119.
史宝明1,贺元香1,吴崇正2
SHI Baoming1, HE Yuanxiang1, WU Chongzheng2
摘要: 为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。