计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (16): 63-66.DOI: 10.3778/j.issn.1002-8331.2010.16.018
方加沛,黄 战
FANG Jia-pei,HUANG Zhan
摘要: 主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。
中图分类号: