计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (7): 74-78.DOI: 10.3778/j.issn.1002-8331.1509-0226
杜博远1,王美清1,陈长福2,陈 飞1
DU Boyuan1, WANG Meiqing1, CHEN Changfu2, CHEN Fei1
摘要: 网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。