计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (11): 122-127.DOI: 10.3778/j.issn.1002-8331.1701-0161
王海涌,冯兆旭,杨海波,张津栋
WANG Haiyong, FENG Zhaoxu, YANG Haibo, ZHANG Jindong
摘要: 针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。